Developers Summit 2026 セッションレポート（AD）

月額50万で24時間働く“賢い”AIオペレーターは自作できる──生成AI音声ボットの最前線とCPaaS連携

【19-D-5】「電話」が知能を持つ日。実用レベルに達した生成AI音声ボットのアーキテクチャとライブデモ

2026/04/08 11:30

ポスト

STT・LLM・TTSの三層構造と「第2世代STS」への進化

　音声ボットの基本構成は、Speech to Text（STT：音声認識）、LLM（大規模言語モデル）、Text to Speech（TTS：音声合成）の3つを直列につないだパイプライン型だ。各コンポーネントを個別に差し替えられる「部分最適化」が利点だが、テキストを経由するためタイムラグが生じるのが弱点だ。

　STTはWhisper（OpenAI）、Google Cloud Speech-to-Text、Deepgram、AmiVoice（アドバンストメディア）など選択肢が豊富だ。日本語向けには方言対応が重要な選定ポイントになる。「アドバンストメディアなどでは、ほぼ関西弁は認識できます」と高橋氏は述べた一方、学習サンプルの少ない方言では個別のチューニングが必要になるケースもある。固有名詞には、ユーザー辞書機能が使えるエンジンを選ぶと精度が上がる。LLMはGPT・Gemini・ClaudeといったAPIモデルのほかOSSモデルも選べ、TTSはVOICEVOX、OpenAI TTS、ElevenLabs、Qwen3-TTSなど目的に応じて使い分けられる。

　パイプライン型の遅延問題を解消するために登場したのがリアルタイムAPIだ。OpenAIのRealtime API（2024年10月）、GoogleのLive API（同年12月）はSTT・LLM・TTSを統合し、WebSocketで音声を直接やり取りする。音声活動検出によるバージインやFunction Calling（外部ツール連携機能）もサポートされ、「話しやすさ」が格段に向上した。

　さらにその先をいくのが「第2世代」と高橋氏が位置づけるSTS（Speech to Speech）だ。テキスト化を完全に排し、音声の波形をそのままLLMが解釈して回答も音声で直接出力する。「波形で読み取れれば、その波形から感情がわかるので、感情に即した回答が出てきたりします」と高橋氏は語った。Gemini Native Audioや、パリの非営利団体Kyutaiが開発したオープンソースのSTS音声AIシステム「Moshi」が代表例だ。

　会場では、Moshiから派生した日本語特化モデル「J-Moshi」（名古屋大学大学院工学研究科東中研究室）のデモも披露された。AIの音声は会話の流れに応じて相槌を打つほど自然だった。高橋氏は、STSをローカルLLMと組み合わせれば、フィジカルAIへ応用するといった展望も視野に入ると指摘した。

次のページ
外部知識と連携して「賢いエージェント」に——コスト設計も腕の見せどころ

関連リンク: 快適なコミュニケーションを実現するために──CPaaS×生成AIのコミュニケーションプラットフォーム戦略

土日祝の電話対応を完全自動化！Vonage基盤のAI電話応答サービスが課題解決と製品化を実現

［資料請求］Vonageサービスパンフレット

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2026 セッションレポート連載記事一覧: AIが書いたコードの品質をどう守る？「SonarQube」の最新機能で“品質”と“スピード...

義務化が進むSBOM作成とサプライチェーン攻撃対策 ——JFrogで実現する「シフトレフト...

「地味に大変」なタスクはAIの力を借りよう！アトラシアンが提案する次世代のAI連携開発

もっと読む

この記事の著者: 森英信（モリヒデノブ）

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 関口達朗（セキグチタツロウ）

フリーカメラマン　1985年生まれ。東京工芸大学卒業後、2009年に小学館スクウェア写真事業部入社。2011年に朝日新聞出版写真部入社。2014から独立し、政治家やアーティストなどのポートレート、物イメージカットなどジャンルを問わず撮影。2児の父。旧姓結束。趣味アウトドア。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事