歌や会話などの音声に合わせてリアルに動く人物動画生成技術「EMO」登場
最終更新日:2024/03/11
Alibabaは、単一の参照画像と音声データからリアルに動く人物動画を生成できるAIシステム「EMO」を発表しました。
このAIニュースのポイント
- 音楽や会話音声に合わせてリアルに人物が動く動画生成技術「EMO」登場
- AIが人物の詳細な情報を抽出し動きを再現。滑らかで豊かな表情と表現力を持つ動きを生成可能に
- 多言語および多文化のキャラクター描写の可能性拡大に期待
中国企業のAlibabaのInstitute for Intelligent Computingは、1枚の写真や絵のデータをもとに、会話や歌声の音声ファイルを使用して、音声の内容に基づいた自然な動きや顔の表情を再現するアバターの生成技術「EMO」(Emote Portrait Alive)を発表しました。入力音声の長さに応じて、任意の再生時間の動画を生成します。
EMOは、音声を分析する音声エンコーダーと、参照画像から顔の特徴や動きをとらえるフレームエンコーディングによって、音声に合わせた動画を生成しています。
ノイズ除去処理を容易にするためにバックボーンネットワークも使用されており、音声に合わせて、従来より広い領域の表情を、自然かつ独自性を捉えて表現可能です。さらに、バックボーンネットワーク内では、リファレンス・アテンションとオーディオ・アテンションが適用されており、キャラクターの特徴を生かした動きになるように調整できます。
入力する画像は、写真やイラスト、AIによって生成した人物などが適用可能です。入力音声も様々な言語の音声や歌声に対応しており、ラップのようなスピードの早い音声においても口の動きを忠実に再現しています。
現在Alibabaは、学術研究と効果実証のみを目的にこのプロジェクトを発表しています。この新しい手法の応用により、映画制作やアニメーション、さらにはソーシャルメディアコンテンツなど、さまざまな分野での利用が期待されています。
出典:GitHub
- 導入活用事例
- エンターテインメント
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら