Meta、高解像度動画生成モデル「Movie Gen」を発表。最大16秒の音声付き動画の生成が可能に
最終更新日:2024/10/18
Metaは、テキストから最大16秒の音声付き高解像度動画を生成する「Movie Gen」を2024年10月4日に発表しました。
このニュースのポイント
- Meta、AIを活用して音声付き高解像度動画を生成する「Movie Gen」を2024年10月4日に発表
- 「Movie Gen」は、テキスト、画像、動画、音声のマルチモーダルモデルで、テキスト入力で動画と音声を生成できる。
- 既存の動画への編集も可能。オブジェクトの追加や削除、置換などの編集や、背景やスタイルの変更などの全体的な変更も可能
Metaは、テキスト、画像、動画、音声のマルチモーダルに対応し、最大16秒の音声付き高解像度動画を生成するモデル「Movie Gen」を2024年10月4日に発表しました。この生成AIは、テキスト入力を用いてカスタム動画や音声を生成したり、既存の動画を編集する機能を持ちます。
「Movie Gen」は、テキストからの動画生成や既存動画の編集、人物の画像を元にした動画生成、BGMや効果音の生成などの機能を有しています。テキストからの動画生成では、プロンプトを入力することで、最長16秒、16フレーム/秒の動画を生成できます。
「Movie Gen」は、物体の動きや物体同士の相互作用、カメラの動きを推論できるため、現実的な動きを再現することができます。
また、人物の画像とテキストプロンプトを組み合わせて、動画内の登場人物として指定することも可能です。
サンプル動画では、女性の写真と「ピンクのジャケットを着用した女性のDJがチーターと一緒にレコードを回している」というテキストを入力することで、写真の女性を登場人物とした動画が生成されています。
既存の動画の編集も「Movie Gen」で行うことが可能です。
動画とテキストの両方を入力として受け取り、要素の追加や削除、動画の一部を別の内容に置き換えたり背景やスタイルの変更など行えます。
さらに、動画の内容に基づいてしBGMや効果音などの生成も可能。最大45秒の高品質でシーンに合った音楽を生成することができます。
また「Meta Gen」は複数のタスクで類似のモデルより優れていると述べており、テキストから動画を生成するタスクでは、Runwayの「Gen-3」、Luma Labsの「Dream Machine」、OpenAIの「Sora」を上回るパフォーマンスを示しています。
Metaは、「Movie Gen」が今後の応用に大きな可能性を示している一方で、現在のモデルには限界があることを認識しているとコメント。今後は、映画製作者やクリエイターと連携し、フィードバックを基にモデルの改善を行っていくとしています。
出典:Meta
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら