Google Cloudは12月13日(米国時間)、Vertex AI上でGemini Live APIの一般提供を開始した。同APIは最新のGemini 2.5 Flashネイティブ音声モデルを搭載し、従来の多段階音声処理から進化した単一リアルタイム・マルチモーダル会話アーキテクチャとなっている。
Gemini Live APIは生の音声入力を単一モデルで処理し、レイテンシを大幅に短縮。テキスト・音声・視覚データを統合的に扱える設計で、ユーザーの音声入力と同時に、共有されたグラフやライブ動画などの視覚情報も会話に活用できる。さらに、感情認識対話やインテリジェントな割り込み判断、リアルタイムの関数呼び出しやGoogle検索連携など、多彩な機能を備える。会話の継続的なコンテキスト維持や、エンタープライズ向けの高可用性・マルチリージョン対応も提供される。
開発者向けには、JavaScriptテンプレートとReactデモの2種のクイックスタートを用意。これにより、WebSocketによる低レイテンシな双方向ストリームを実装しやすい構成となっている。サードパーティとしてDaily、Twilio、LiveKitなどの通信プラットフォームとの統合も可能だ。
用途例として、リアルタイムアドバイザーエージェントやマルチモーダルカスタマーサポート、ゲームアシスタントなどのデモも公開。すべてのサンプルコードやテンプレートはGoogle公式GitHubで公開されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
