生成AI

最終更新日:2024/04/30
OpenAIは、音声生成AIモデル「Voice Engine」を発表しました。テキスト入力と15 秒の音声サンプルを使用して、元の話者によく似た自然な音声を生成します。
このAIニュースのポイント
OpenAIは2024年3月29日、人の声を再現できる音声生成AIモデル「Voice Engine」を発表しました。
「Voice Engine」は、テキスト入力と15秒の音声サンプルから、元の話者に似た自然な音声を生成することができる音声生成AIモデルです。感情を込めたリアルな音声や、母国語以外の言語の発声も可能です。
サンプル音声
生成された音声
自然に聞こえる感情豊かな音声で、本を読まない人や子供たちに読書支援などを行うことができます。さらに、病気で発話が不自由になってしまった人の音声データから、その人の流暢な発話を復元することも実現しています。
「Voice Engine」は2022年から開発され、既にOpenAIの「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで使用されています。同時に、合成音声が悪用される可能性があるため、OpenAIは慎重かつ十分な情報に基づいたアプローチをとっています。
OpenAIは「人の声に似た音声の生成は重大なリスクがあり、特に選挙の年は最優先事項であることを認識しています。私たちは、政府、メディアなどの米国および国際的なパートナーと連携し、彼らのフィードバックを開発に確実に取り入れます」とコメントしています
現段階では、「Voice Engine」の広範囲なリリースは計画されておらず、OpenAIはこれら新技術に適応するには社会の理解や施策が必要だとしており、具体的に、音声認証システムの廃止や、個人の声を保護するポリシーの検討、AIテクノロジーの機能と限界についての大衆の理解促進などが必要だと述べています。
出典:OpenAI
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら