OpenAI、APIに3つの新音声モデル導入。リアルタイムで推論・翻訳・文字起こしに対応

最終更新日:2026/05/19

OpenAI 音声新モデル

OpenAIは、リアルタイム推論・翻訳・文字起こしに対応する3つの新音声モデルをAPIに導入しました。

このニュースのポイント

OpenAI、リアルタイムで推論・翻訳・文字起こしを行う3つの新音声モデルをAPIに導入
「GPT-Realtime-2」はGPT-5クラスの推論能力を備えており、コンテキストウィンドウが128Kへと拡張され、より複雑なタスクフローに対応
「GPT-Realtime-Translate」はライブ音声をリアルタイム翻訳で70以上の入力言語と13の出力言語に対応し、「GPT-Realtime-Whisper」は発話中に文字起こし可能

OpenAIは、より自然なリアルタイム音声アプリを構築するための新しいオーディオモデルをAPIに導入しました。

導入するのは、GPT-5クラスの推論能力を備える同社初の音声モデル「GPT-Realtime-2」、リアルタイム翻訳モデル「GPT-Realtime-Translate」、リアルタイムで文字起こしを行うストリーミング音声認識モデル「GPT-Realtime-Translate」の3種類です。

音声はソフトウェアを利用する自然で便利な手段として普及していますが、実用的な音声製品の開発には、単なる素早い応答や自然な声だけでは不十分です。音声エージェントにおいては、ユーザーの意図や文脈を理解し、要求の変更にも対応しながら、会話中にツールを活用して応答する能力が必要です。

今回の新モデルはそれらの能力を搭載し、実用的なインターフェースへと進化したものです。

音声によるソフトウェア操作が普及する中、音声AIの開発においては3つのパターンが軸となっています。

1つ目の「Voice-to-action」は、ユーザーの要求をシステムが推論しツールを使ってタスクを完了させる機能で、Zillow社においても開発が進められています。

2つ目の「Systems-to-voice」は、旅行アプリによる航空便の遅延に対するルート案内など、ソフトウェアが状況に応じた音声ガイダンスをリアルタイムで提供する技術です。

3つ目の「Voice-to-voice」は、AIが言語や状況の変化に関わらずリアルタイムの会話を継続させる技術で、ドイツテレコム社も使い慣れた言語での会話をリアルタイムで翻訳する音声サポート体験を構築しています。

これらのパターンは連携して機能することもあります。Priceline社では、旅行者がフライトの検索・変更や現地での会話の翻訳を行うことができるサービスを提供しており、音声で旅行全体を管理できる未来を目指しています。

同社が今回発表した「GPT-Realtime-2」は、リアルタイムの音声対話向けに構築されており、会話を途切れさせることなく、要求の推論、ツールの呼び出し、修正や中断処理を行い、その場に合った方法で応答します。

「確認してみます」といった回答前の短い前置きや、複数ツールの並行処理時の音声通知が可能になり、状況の透明性が高まりました。さらに、エラー発生時もスムーズに会話へ復帰し、ユーザーの感情に合わせたトーンの調整も可能です。

また、コンテキストウィンドウが32Kから128Kへと拡張され、より複雑なタスクフローに対応できるようになりました。医療などの専門用語や固有名詞の理解力も強化されたほか、開発者は推論レベルを5段階から選択できるようになり、応答速度と推論のバランスを最適化できます。

従来の「GPT‑Realtime‑1.5」と比較すると、「GPT‑Realtime‑2 （high）」は音声インテリジェンスを測る「Big Bench Audio」で15.2%、「GPT‑Realtime‑2 （xhigh）」は指示への追従を測る「Audio MultiChallenge」で13.8%高いスコアを獲得しました。

従来モデルからの改善を見せるとともに、ライブ会話におけるより強力な推論、コンテキスト管理、および制御能力を示しています。