SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2026 セッションレポート(AD)

月額50万で24時間働く“賢い”AIオペレーターは自作できる──生成AI音声ボットの最前線とCPaaS連携

【19-D-5】「電話」が知能を持つ日。実用レベルに達した生成AI音声ボットのアーキテクチャとライブデモ

STT・LLM・TTSの三層構造と「第2世代STS」への進化

 音声ボットの基本構成は、Speech to Text(STT:音声認識)、LLM(大規模言語モデル)、Text to Speech(TTS:音声合成)の3つを直列につないだパイプライン型だ。各コンポーネントを個別に差し替えられる「部分最適化」が利点だが、テキストを経由するためタイムラグが生じるのが弱点だ。

音声ボットの基本構成(STT→LLM→TTSパイプライン)のイメージ
音声ボットの基本構成(STT→LLM→TTSパイプライン)のイメージ

 STTはWhisper(OpenAI)、Google Cloud Speech-to-Text、Deepgram、AmiVoice(アドバンストメディア)など選択肢が豊富だ。日本語向けには方言対応が重要な選定ポイントになる。「アドバンストメディアなどでは、ほぼ関西弁は認識できます」と高橋氏は述べた一方、学習サンプルの少ない方言では個別のチューニングが必要になるケースもある。固有名詞には、ユーザー辞書機能が使えるエンジンを選ぶと精度が上がる。LLMはGPT・Gemini・ClaudeといったAPIモデルのほかOSSモデルも選べ、TTSはVOICEVOX、OpenAI TTS、ElevenLabs、Qwen3-TTSなど目的に応じて使い分けられる。

 パイプライン型の遅延問題を解消するために登場したのがリアルタイムAPIだ。OpenAIのRealtime API(2024年10月)、GoogleのLive API(同年12月)はSTT・LLM・TTSを統合し、WebSocketで音声を直接やり取りする。音声活動検出によるバージインやFunction Calling(外部ツール連携機能)もサポートされ、「話しやすさ」が格段に向上した。

 さらにその先をいくのが「第2世代」と高橋氏が位置づけるSTS(Speech to Speech)だ。テキスト化を完全に排し、音声の波形をそのままLLMが解釈して回答も音声で直接出力する。「波形で読み取れれば、その波形から感情がわかるので、感情に即した回答が出てきたりします」と高橋氏は語った。Gemini Native Audioや、パリの非営利団体Kyutaiが開発したオープンソースのSTS音声AIシステム「Moshi」が代表例だ。

 会場では、Moshiから派生した日本語特化モデル「J-Moshi」(名古屋大学 大学院工学研究科 東中研究室)のデモも披露された。AIの音声は会話の流れに応じて相槌を打つほど自然だった。高橋氏は、STSをローカルLLMと組み合わせれば、フィジカルAIへ応用するといった展望も視野に入ると指摘した。

次のページ
外部知識と連携して「賢いエージェント」に——コスト設計も腕の見せどころ

関連リンク

この記事は参考になりましたか?

Developers Summit 2026 セッションレポート連載記事一覧

もっと読む

この記事の著者

森 英信(モリ ヒデノブ)

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

関口 達朗(セキグチ タツロウ)

フリーカメラマン 1985年生まれ。東京工芸大学卒業後、2009年に小学館スクウェア写真事業部入社。2011年に朝日新聞出版写真部入社。2014から独立し、政治家やアーティストなどのポートレート、物イメージカットなどジャンルを問わず撮影。2児の父。旧姓結束。趣味アウトドア。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:株式会社KDDIウェブコミュニケーションズ

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

CodeZine(コードジン)
https://codezine.jp/article/detail/23625 2026/04/08 11:30

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング