OpenAIは2025年8月28日(現地時間)、音声AIエージェント向けに、最新の音声対話モデル「gpt-realtime」と大幅に機能拡張された「Realtime API」の一般提供を開始した。APIはMCPサーバやSIP電話、画像入力などの新機能に対応する。
Realtime APIの最大の特徴は、従来の「音声認識→テキスト生成→音声合成」という複数モデルを連ねた手法とは異なり、一つのモデルとAPIで直接音声を入出力できる点にある。これにより低遅延を実現し、自然で表現力豊かな返答を可能とした。
最新モデル「gpt-realtime」は、複雑な指示の理解やツール呼び出しの精度、より自然な発話表現において品質が向上している。たとえば、カスタマーサポートでのスクリプトの厳密な読み上げや、記号・数字の繰り返し、会話中の言語の切り替えなどにも対応する。また、笑い声や話し方の調整にも柔軟に適応する。
性能評価では、音声理解のBig Bench Audioベンチマークにて82.8%の正答率を記録し、従来モデルの65.6%を大きく上回った。指示遵守や関数呼び出し性能も大きく向上している。加えて、新しい音声「Cedar」と「Marin」も利用可能となり、既存音声も音質が改善された。
新機能として、MCPサーバ連携により外部ツールとの統合が容易になり、API設定だけで連携できる。画像入力では、会話中にスクリーンショットや写真を用いて音声やテキストと連携したやりとりが可能となった。また、SIP電話を使った外部電話網やPBX等との接続対応、プロンプトの保存・再利用機能も追加された。
安全性・プライバシー面も対策を強化し、EU域内データの居住要件や利用制限ガイドラインにも準拠した。
Realtime APIとgpt-realtimeは全ての開発者が利用可能で、従来のgpt-4o-realtime-preview比で20%価格が引き下げられた。詳細な価格や利用開始方法については公式ドキュメントやプレイグラウンド、プロンプトガイドが用意されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です