米OpenAIは、大規模言語モデル(LLM)「GPT-4o」と音声によるやり取りを実現するAPI「Realtime API」をパブリックベータとして10月1日(現地時間)に公開した。このAPIを利用することで、最小限の遅延で音声によるやり取りが可能になる。
従来、LLMと音声でやり取りするプログラムを作るには、OpenAIの「Whisper」のような音声認識モデルを使って音声入力をテキストに変換してLLMに渡す必要があった。さらにLLMからの返答を音声にするには、音声合成モデルを使う必要があった。このように、音声によるLLMとのやり取りには、他のモデルも使って音声とテキストの間の変換をしなければならないため、どうしても遅延が長くなってしまう。
今回公開したRealtime APIを使うと、1回のAPI呼び出しで、プログラムで受け取った音声データをそのままGPT-4oに渡せるようになる。GPT-4oが出力する音声による返答をそのままプログラムに返す際にも、1回のAPI呼び出しで完了する。音声合成モデルなど、ほかのモデルを使う必要はない。
Realtime APIでは、開発者が作るプログラムと、OpenAIのサーバーの間でWebSocketのコネクションを確立して、データをやり取りする。API呼び出しの簡素化だけでなく、HTTPよりもオーバーヘッドが少ないWebSocketを使うことでも、遅延を最小限に抑えている。
Realtime APIは、有料契約者向けにパブリックベータとして公開する。音声に加えてテキストのやり取りにも対応し、利用料金はテキスト入力100万トークン当たり5米ドルで、テキスト出力100万トークン当たり20米ドル。音声入力は100万トークン当たり100米ドルで、音声出力は100万トークン当たり200ドル。
OpenAIは、Realtime APIと同時に「Chat Completions API」も公開した。このAPIは、Realtime APIと同じようにGPT-4oとの音声でのやり取りを実現するものだが、Realtime APIに比べると遅延が大きくなっているという。
OpenAIは今後、Realtime APIに音声とテキストに加えて画像や動画を扱う機能を持たせ、同時呼び出しの制限を緩和することなどを予定している。さらに、OpenAIの公式Python SDKや、公式Node.js SDKでもRealtime APIを利用できるようにし、Realtime APIでGPT-4o miniを呼び出せるようにすることも計画しているという。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です