OpenAI、音声生成AIモデル「Voice Engine」をリリース。音声サンプルからリアルな音声を生成可能に
最終更新日:2024/04/30
OpenAIは、音声生成AIモデル「Voice Engine」を発表しました。テキスト入力と15 秒の音声サンプルを使用して、元の話者によく似た自然な音声を生成します。
このAIニュースのポイント
- OpenAIが人の声を再現できる音声生成AIモデル「Voice Engine」を発表
- テキスト入力と音声サンプルを使用して、元の話者によく似た自然な音声を生成する
- 悪用されるリスクがあるため、一般利用には課題もあるが、安全対策をより一層強化していく
OpenAIは2024年3月29日、人の声を再現できる音声生成AIモデル「Voice Engine」を発表しました。
「Voice Engine」は、テキスト入力と15秒の音声サンプルから、元の話者に似た自然な音声を生成することができる音声生成AIモデルです。感情を込めたリアルな音声や、母国語以外の言語の発声も可能です。
サンプル音声
生成された音声
自然に聞こえる感情豊かな音声で、本を読まない人や子供たちに読書支援などを行うことができます。さらに、病気で発話が不自由になってしまった人の音声データから、その人の流暢な発話を復元することも実現しています。
「Voice Engine」は2022年から開発され、既にOpenAIの「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで使用されています。同時に、合成音声が悪用される可能性があるため、OpenAIは慎重かつ十分な情報に基づいたアプローチをとっています。
OpenAIは「人の声に似た音声の生成は重大なリスクがあり、特に選挙の年は最優先事項であることを認識しています。私たちは、政府、メディアなどの米国および国際的なパートナーと連携し、彼らのフィードバックを開発に確実に取り入れます」とコメントしています
現段階では、「Voice Engine」の広範囲なリリースは計画されておらず、OpenAIはこれら新技術に適応するには社会の理解や施策が必要だとしており、具体的に、音声認証システムの廃止や、個人の声を保護するポリシーの検討、AIテクノロジーの機能と限界についての大衆の理解促進などが必要だと述べています。
出典:OpenAI
- AIサービス
- 生成AI
- ボイスボット
- 音声認識・翻訳・通訳
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら