DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

歌や会話などの音声に合わせてリアルに動く人物動画生成技術「EMO」登場

最終更新日:2024/03/11

Alibabaは、単一の参照画像と音声データからリアルに動く人物動画を生成できるAIシステム「EMO」を発表しました。

このAIニュースのポイント

  • 音楽や会話音声に合わせてリアルに人物が動く動画生成技術「EMO」登場
  • AIが人物の詳細な情報を抽出し動きを再現。滑らかで豊かな表情と表現力を持つ動きを生成可能に
  • 多言語および多文化のキャラクター描写の可能性拡大に期待

中国企業のAlibabaのInstitute for Intelligent Computingは、1枚の写真や絵のデータをもとに、会話や歌声の音声ファイルを使用して、音声の内容に基づいた自然な動きや顔の表情を再現するアバターの生成技術「EMO」(Emote Portrait Alive)を発表しました。入力音声の長さに応じて、任意の再生時間の動画を生成します。

EMOは、音声を分析する音声エンコーダーと、参照画像から顔の特徴や動きをとらえるフレームエンコーディングによって、音声に合わせた動画を生成しています。

ノイズ除去処理を容易にするためにバックボーンネットワークも使用されており、音声に合わせて、従来より広い領域の表情を、自然かつ独自性を捉えて表現可能です。さらに、バックボーンネットワーク内では、リファレンス・アテンションとオーディオ・アテンションが適用されており、キャラクターの特徴を生かした動きになるように調整できます。

 

入力する画像は、写真やイラスト、AIによって生成した人物などが適用可能です。入力音声も様々な言語の音声や歌声に対応しており、ラップのようなスピードの早い音声においても口の動きを忠実に再現しています。

現在Alibabaは、学術研究と効果実証のみを目的にこのプロジェクトを発表しています。この新しい手法の応用により、映画制作やアニメーション、さらにはソーシャルメディアコンテンツなど、さまざまな分野での利用が期待されています。

出典:GitHub

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aiaismiley1345

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら