Googleは、6月9日、リアルタイムの音声翻訳モデル「Gemini 3.5 Live Translate」を発表した。
Gemini 3.5 Live Translateは70以上の言語を自動的に検出し、話者のイントネーションやペース、ピッチを維持した自然な音声翻訳を実現する。ターンバイターン方式(話者が話し終えてから応答する)のシステムとは異なり、音声を連続的に生成するのが特徴だ。同時に、ノイズ耐性にも優れているため、騒がしい環境でも動作する。
Google Meetの音声翻訳機能にも、近日中にGemini 3.5 Live Translateが搭載される予定。サポート言語を従来の5言語から70以上に増やし、1回の会議で2000通り以上の言語の組み合わせでの会話を可能にする。
また、Googleのモデルが生成する音声コンテンツにはSynthIDのウォーターマークが入っているため、AI生成コンテンツであることが識別可能。
現在、本モデルはすでにGoogle翻訳アプリ(iOS/Android)で展開されており、誰でも利用できる。Androidユーザー向けにはこのモデルを使った「リスニングモード」機能の提供を開始している。
また、Gemini Live APIとGoogle AI Studioを通じて開発向けのパブリックプレビュー版が提供されているほか、今月からGoogle Meetでのプライベートプレビューが一部のGoogle Workspace法人向けに展開される。詳細はブログポストを参照のこと。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
