STT・LLM・TTSの三層構造と「第2世代STS」への進化
音声ボットの基本構成は、Speech to Text(STT:音声認識)、LLM(大規模言語モデル)、Text to Speech(TTS:音声合成)の3つを直列につないだパイプライン型だ。各コンポーネントを個別に差し替えられる「部分最適化」が利点だが、テキストを経由するためタイムラグが生じるのが弱点だ。
STTはWhisper(OpenAI)、Google Cloud Speech-to-Text、Deepgram、AmiVoice(アドバンストメディア)など選択肢が豊富だ。日本語向けには方言対応が重要な選定ポイントになる。「アドバンストメディアなどでは、ほぼ関西弁は認識できます」と高橋氏は述べた一方、学習サンプルの少ない方言では個別のチューニングが必要になるケースもある。固有名詞には、ユーザー辞書機能が使えるエンジンを選ぶと精度が上がる。LLMはGPT・Gemini・ClaudeといったAPIモデルのほかOSSモデルも選べ、TTSはVOICEVOX、OpenAI TTS、ElevenLabs、Qwen3-TTSなど目的に応じて使い分けられる。
パイプライン型の遅延問題を解消するために登場したのがリアルタイムAPIだ。OpenAIのRealtime API(2024年10月)、GoogleのLive API(同年12月)はSTT・LLM・TTSを統合し、WebSocketで音声を直接やり取りする。音声活動検出によるバージインやFunction Calling(外部ツール連携機能)もサポートされ、「話しやすさ」が格段に向上した。
さらにその先をいくのが「第2世代」と高橋氏が位置づけるSTS(Speech to Speech)だ。テキスト化を完全に排し、音声の波形をそのままLLMが解釈して回答も音声で直接出力する。「波形で読み取れれば、その波形から感情がわかるので、感情に即した回答が出てきたりします」と高橋氏は語った。Gemini Native Audioや、パリの非営利団体Kyutaiが開発したオープンソースのSTS音声AIシステム「Moshi」が代表例だ。
会場では、Moshiから派生した日本語特化モデル「J-Moshi」(名古屋大学 大学院工学研究科 東中研究室)のデモも披露された。AIの音声は会話の流れに応じて相槌を打つほど自然だった。高橋氏は、STSをローカルLLMと組み合わせれば、フィジカルAIへ応用するといった展望も視野に入ると指摘した。

