DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

OpenAI、APIに3つの新音声モデル導入。リアルタイムで推論・翻訳・文字起こしに対応

最終更新日:2026/05/19

OpenAI 音声新モデル

OpenAIは、リアルタイム推論・翻訳・文字起こしに対応する3つの新音声モデルをAPIに導入しました。

このニュースのポイント

  • OpenAI、リアルタイムで推論・翻訳・文字起こしを行う3つの新音声モデルをAPIに導入
  • 「GPT-Realtime-2」はGPT-5クラスの推論能力を備えており、コンテキストウィンドウが128Kへと拡張され、より複雑なタスクフローに対応
  • 「GPT-Realtime-Translate」はライブ音声をリアルタイム翻訳で70以上の入力言語と13の出力言語に対応し、「GPT-Realtime-Whisper」は発話中に文字起こし可能

OpenAIは、より自然なリアルタイム音声アプリを構築するための新しいオーディオモデルをAPIに導入しました。

導入するのは、GPT-5クラスの推論能力を備える同社初の音声モデル「GPT-Realtime-2」、リアルタイム翻訳モデル「GPT-Realtime-Translate」、リアルタイムで文字起こしを行うストリーミング音声認識モデル「GPT-Realtime-Translate」の3種類です。

音声はソフトウェアを利用する自然で便利な手段として普及していますが、実用的な音声製品の開発には、単なる素早い応答や自然な声だけでは不十分です。音声エージェントにおいては、ユーザーの意図や文脈を理解し、要求の変更にも対応しながら、会話中にツールを活用して応答する能力が必要です。

今回の新モデルはそれらの能力を搭載し、実用的なインターフェースへと進化したものです。

音声によるソフトウェア操作が普及する中、 音声AIの開発においては3つのパターンが軸となっています。

1つ目の 「Voice-to-action」は、ユーザーの要求をシステムが推論しツールを使ってタスクを完了させる機能で、Zillow社においても開発が進められています。

2つ目の 「Systems-to-voice」は、旅行アプリによる航空便の遅延に対するルート案内など、ソフトウェアが状況に応じた音声ガイダンスをリアルタイムで提供する技術です。

3つ目の「Voice-to-voice」は、AIが言語や状況の変化に関わらずリアルタイムの会話を継続させる技術で、ドイツテレコム社も使い慣れた言語での会話をリアルタイムで翻訳する音声サポート体験を構築しています。

これらのパターンは連携して機能することもあります。Priceline社では、旅行者がフライトの検索・変更や現地での会話の翻訳を行うことができるサービスを提供しており、音声で旅行全体を管理できる未来を目指しています。

同社が今回発表した「GPT-Realtime-2」は、リアルタイムの音声対話向けに構築されており、会話を途切れさせることなく、要求の推論、ツールの呼び出し、修正や中断処理を行い、その場に合った方法で応答します。

「確認してみます」といった回答前の短い前置きや、複数ツールの並行処理時の音声通知が可能になり、状況の透明性が高まりました。さらに、エラー発生時もスムーズに会話へ復帰し、ユーザーの感情に合わせたトーンの調整も可能です。

また、コンテキストウィンドウが32Kから128Kへと拡張され、より複雑なタスクフローに対応できるようになりました。医療などの専門用語や固有名詞の理解力も強化されたほか、開発者は推論レベルを5段階から選択できるようになり、応答速度と推論のバランスを最適化できます。

従来の「GPT‑Realtime‑1.5」と比較すると、「GPT‑Realtime‑2 (high)」 は音声インテリジェンスを測る「Big Bench Audio」で15.2%、「GPT‑Realtime‑2 (xhigh)」は指示への追従を測る「Audio MultiChallenge」で13.8%高いスコアを獲得しました。

従来モデルからの改善を見せるとともに、ライブ会話におけるより強力な推論、コンテキスト管理、および制御能力を示しています。

「GPT-Realtime-Translate」は、話者のペースに合わせて音声を翻訳するリアルタイム翻訳モデルで、70以上の入力言語と13の出力言語に対応しています。カスタマーサポート、越境セールス、教育、グローバルなユーザーにサービスを提供するクリエイタープラットフォームなどで役立ちます。

「GPT-Realtime-Whisper」は、話している最中の音声をリアルタイムで文字起こしできるストリーミング文字起こしモデルで、迅速で自然な体験を提供します。会議字幕、ライブ要約、音声エージェント構築のほか、医療・営業・サポート業務などで迅速なフォローアップワークフローを作成できます。

なお、Realtime APIは不正利用を防止するために複数の保護対策と緩和策を組み込んでいます。

「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」は、Realtime APIで利用可能です。

出典:OpenAI

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています @AIsmiley.inc
・Xもフォローください @AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aismiley
メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら