OpenAI、音声生成AIモデル「Voice Engine」をリリース。音声サンプルからリアルな音声を生成可能に

最終更新日:2024/04/30

OpenAI 音声生成AIモデルを発表

OpenAIは、音声生成AIモデル「Voice Engine」を発表しました。テキスト入力と15 秒の音声サンプルを使用して、元の話者によく似た自然な音声を生成します。

このAIニュースのポイント

OpenAIが人の声を再現できる音声生成AIモデル「Voice Engine」を発表
テキスト入力と音声サンプルを使用して、元の話者によく似た自然な音声を生成する
悪用されるリスクがあるため、一般利用には課題もあるが、安全対策をより一層強化していく

OpenAIは2024年3月29日、人の声を再現できる音声生成AIモデル「Voice Engine」を発表しました。

「Voice Engine」は、テキスト入力と15秒の音声サンプルから、元の話者に似た自然な音声を生成することができる音声生成AIモデルです。感情を込めたリアルな音声や、母国語以外の言語の発声も可能です。

サンプル音声

生成された音声

自然に聞こえる感情豊かな音声で、本を読まない人や子供たちに読書支援などを行うことができます。さらに、病気で発話が不自由になってしまった人の音声データから、その人の流暢な発話を復元することも実現しています。

「Voice Engine」は2022年から開発され、既にOpenAIの「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで使用されています。同時に、合成音声が悪用される可能性があるため、OpenAIは慎重かつ十分な情報に基づいたアプローチをとっています。

OpenAIは「人の声に似た音声の生成は重大なリスクがあり、特に選挙の年は最優先事項であることを認識しています。私たちは、政府、メディアなどの米国および国際的なパートナーと連携し、彼らのフィードバックを開発に確実に取り入れます」とコメントしています

現段階では、「Voice Engine」の広範囲なリリースは計画されておらず、OpenAIはこれら新技術に適応するには社会の理解や施策が必要だとしており、具体的に、音声認証システムの廃止や、個人の声を保護するポリシーの検討、AIテクノロジーの機能と限界についての大衆の理解促進などが必要だと述べています。

出典：OpenAI