Googleは、4月15日、最新のオーディオAIモデル「Gemini 3.1 Flash TTS」を発表した。
Gemini 3.1 Flash TTSは、コントロールや表現力、品質が向上した最新のテキスト読み上げモデルであり、AI音声アプリの構築に役立つ。
Gemini APIとGoogle AI Studioから、開発者向けのプレビュー版が提供されているほか、Vertex AIのプレビュー版を使用中の企業も利用可能。また、WorkspaceユーザーはGoogle Vidsを介して利用できる。
Googleは本モデルを「これまでで最も自然で表現力豊かなモデル」と説明している。ベンチマークである人工音声分析TTSリーダーボードにおいて、高いスコアを記録。ネイティブの複数話者対話や、70以上の言語への対応も備えている点が特徴だ。
また今回、音声スタイルやペース、発話方法を直感的に制御できる「音声タグ」機能が追加された。自然言語コマンドをテキスト入力に直接埋め込むことで、AI音声出力をよりきめ細かく制御できる。
さらに、Gemini 3.1 Flash TTSによって生成される音声には、SynthIDのウォーターマークが埋め込まれる。これによって、AI生成コンテンツを確実に検出して誤情報の拡散を防ぐのに役立つ。
詳細はブログポストを確認のこと。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
