生成AI

最終更新日:2024/10/18
Metaは、テキストから最大16秒の音声付き高解像度動画を生成する「Movie Gen」を2024年10月4日に発表しました。
このニュースのポイント
Metaは、テキスト、画像、動画、音声のマルチモーダルに対応し、最大16秒の音声付き高解像度動画を生成するモデル「Movie Gen」を2024年10月4日に発表しました。この生成AIは、テキスト入力を用いてカスタム動画や音声を生成したり、既存の動画を編集する機能を持ちます。
「Movie Gen」は、テキストからの動画生成や既存動画の編集、人物の画像を元にした動画生成、BGMや効果音の生成などの機能を有しています。テキストからの動画生成では、プロンプトを入力することで、最長16秒、16フレーム/秒の動画を生成できます。
「Movie Gen」は、物体の動きや物体同士の相互作用、カメラの動きを推論できるため、現実的な動きを再現することができます。
また、人物の画像とテキストプロンプトを組み合わせて、動画内の登場人物として指定することも可能です。
サンプル動画では、女性の写真と「ピンクのジャケットを着用した女性のDJがチーターと一緒にレコードを回している」というテキストを入力することで、写真の女性を登場人物とした動画が生成されています。
既存の動画の編集も「Movie Gen」で行うことが可能です。
動画とテキストの両方を入力として受け取り、要素の追加や削除、動画の一部を別の内容に置き換えたり背景やスタイルの変更など行えます。
さらに、動画の内容に基づいてしBGMや効果音などの生成も可能。最大45秒の高品質でシーンに合った音楽を生成することができます。
また「Meta Gen」は複数のタスクで類似のモデルより優れていると述べており、テキストから動画を生成するタスクでは、Runwayの「Gen-3」、Luma Labsの「Dream Machine」、OpenAIの「Sora」を上回るパフォーマンスを示しています。
Metaは、「Movie Gen」が今後の応用に大きな可能性を示している一方で、現在のモデルには限界があることを認識しているとコメント。今後は、映画製作者やクリエイターと連携し、フィードバックを基にモデルの改善を行っていくとしています。
出典:Meta
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら