Developers Summit 2026 セッションレポート（AD）

月額50万で24時間働く“賢い”AIオペレーターは自作できる──生成AI音声ボットの最前線とCPaaS連携

【19-D-5】「電話」が知能を持つ日。実用レベルに達した生成AI音声ボットのアーキテクチャとライブデモ

2026/04/08 11:30

ポスト

　電話応対のシステムは静かに進化してきた。番号を押してメニューを選ぶ自動応答システムは、受ける側には整理された対応を届けられる一方、かける側には「全部聞き終わるまで選べない」という待ち時間を強いてきた。AIの発展によって、その仕組みは自然な会話で完結するスタイルへと変わりつつある。KDDIウェブコミュニケーションズでエバンジェリストを務める高橋克己氏は、ライブデモを交えながら今日の音声ボットの全体像とすぐにPoCを始められる構成技術を解説した。

ポスト

番号を押す時代の終わり——AI音声ボットは「実用段階」に達している

　KDDIウェブコミュニケーションズのコミュニケーションDX本部でエバンジェリストを務める高橋氏は、グローバル・インターネット・ジャパン株式会社のCEOも兼務する実践者だ。2014年には自ら音声認識を活用した留守番電話サービス「TRANSREC（トランスレック）」を開発した経歴を持ち、音声とコミュニケーション技術の現場に携わってきた。

株式会社KDDIウェブコミュニケーションズ CPaaSエバンジェリスト高橋克己氏

　電話のユーザー体験は長らくIVR（インタラクティブ・ボイス・レスポンス）によって支えられてきた。1970年代から続くこの番号選択型の仕組みは、受ける側には取り次ぎ業務を削減するメリットがある。しかしかける側には、全選択肢を最後まで聞かなければ番号を押せない、「その他」の問い合わせは大抵一番後ろにある、誤操作すると戻れないといった不便が伴う。

　その閉塞を打ち破ろうと登場したのがAI音声ボットだ。自然言語で会話ができるため、番号選択なしに一発で目的を達成できる。しかし、会話としてやり取りをするには、人間とは少し違うと感じる部分がある。「しゃべりにくさ」の課題があったのだ。

　その課題がどこまで克服されたのかを、高橋氏はライブデモで示した。自作のトレーニングツールでシステムインストラクションを設定した「チャッピー電話」に、OpenAIのリアルタイムAPIを組み込み、会場で実際に電話をかけた。

　まずサービスの解約方法を問い合わせると、ボットはFAQを検索して数秒で手順を案内した。続けて「新しい金融商品の営業です」と告げると、「申し訳ございませんが、営業のお電話はお断りしております」と即座に対応し、通話を切った。

　AIが話している途中に、かぶせて（割り込んで）人が話す「バージイン（barge-in）」にも対応し、応答速度も良好だ。「これぐらいのクオリティで話してくれると、実用レベルに達している感じではないでしょうか」と高橋氏は語った。さらに「これは誰でもできるんですね。自分で作りましたから」と付け加えた。音声ボットは大企業の専売特許ではなく、今やエンジニアなら誰でも実装に踏み出せる段階にあるという。

STT・LLM・TTSの三層構造と「第2世代STS」への進化

　音声ボットの基本構成は、Speech to Text（STT：音声認識）、LLM（大規模言語モデル）、Text to Speech（TTS：音声合成）の3つを直列につないだパイプライン型だ。各コンポーネントを個別に差し替えられる「部分最適化」が利点だが、テキストを経由するためタイムラグが生じるのが弱点だ。

　STTはWhisper（OpenAI）、Google Cloud Speech-to-Text、Deepgram、AmiVoice（アドバンストメディア）など選択肢が豊富だ。日本語向けには方言対応が重要な選定ポイントになる。「アドバンストメディアなどでは、ほぼ関西弁は認識できます」と高橋氏は述べた一方、学習サンプルの少ない方言では個別のチューニングが必要になるケースもある。固有名詞には、ユーザー辞書機能が使えるエンジンを選ぶと精度が上がる。LLMはGPT・Gemini・ClaudeといったAPIモデルのほかOSSモデルも選べ、TTSはVOICEVOX、OpenAI TTS、ElevenLabs、Qwen3-TTSなど目的に応じて使い分けられる。

　パイプライン型の遅延問題を解消するために登場したのがリアルタイムAPIだ。OpenAIのRealtime API（2024年10月）、GoogleのLive API（同年12月）はSTT・LLM・TTSを統合し、WebSocketで音声を直接やり取りする。音声活動検出によるバージインやFunction Calling（外部ツール連携機能）もサポートされ、「話しやすさ」が格段に向上した。

　さらにその先をいくのが「第2世代」と高橋氏が位置づけるSTS（Speech to Speech）だ。テキスト化を完全に排し、音声の波形をそのままLLMが解釈して回答も音声で直接出力する。「波形で読み取れれば、その波形から感情がわかるので、感情に即した回答が出てきたりします」と高橋氏は語った。Gemini Native Audioや、パリの非営利団体Kyutaiが開発したオープンソースのSTS音声AIシステム「Moshi」が代表例だ。

　会場では、Moshiから派生した日本語特化モデル「J-Moshi」（名古屋大学大学院工学研究科東中研究室）のデモも披露された。AIの音声は会話の流れに応じて相槌を打つほど自然だった。高橋氏は、STSをローカルLLMと組み合わせれば、フィジカルAIへ応用するといった展望も視野に入ると指摘した。

外部知識と連携して「賢いエージェント」に——コスト設計も腕の見せどころ

　会話ができるだけでは業務に使えない。FAQへの回答や予約登録、社内ナレッジ検索といった「賢さ」を持たせる仕組みがFunction Callingだ。LLMにツールの定義を渡しておくと、特定の質問が来たときに指定した関数を呼び出す。外部APIの呼び出しやMCPサーバーの利用、RAGによる社内文書の検索連携など、幅広い用途に対応できる。

　留守番電話サービスTRANSRECの場合、FAQとの連携にGoogle CloudのVertex AI Agent Builderを活用している。Function Calling経由で音声ボットから呼び出す構成で、サンプルコードはGitHubで公開されている。

　賢くするほど気になるのがコストだ。リアルタイムAPIはトークン数に応じた課金のため、会話が長くなるほど費用が膨らむ。セッション冒頭のデモでも、営業電話を断った短いやり取りで7円、サービス問い合わせでは20円がかかっていた。「いかにコンテキストを短くしていくか、ここが腕の見せどころになってきます」と高橋氏は強調した。

　対策は、軽量モデルの活用・ステート管理によるトークン削減・音声向けプロンプトチューニングの3本柱だ。音声向けには短文回答の指示やURLリンクの排除が有効という。高橋氏自身はこうした試行錯誤を効率化するため、デモを行なった「チャッピートレーニング」ツールを自作・公開している。実際に会話しながら試すことで1通話あたりのコストの感覚がつかめる。

電話とAIをつなぐCPaaS——実装の勘所とローコードという選択肢

　音声ボットをブラウザ上だけでなく実際の「電話」として使うには、もう一つのピースが必要だ。それがCPaaS（Communications Platform as a Service、シーパスまたはシーパース）だ。電話・SMS・Videoなどのコミュニケーション機能をAPIとして提供するクラウド基盤で、代表的なサービスにVonageとTwilioがある。なお、KDDIウェブコミュニケーションズはVonageの国内販売代理店でもある。

　CPaaSと契約すれば日本を含む世界各国の電話番号を取得でき、着信した通話をWebSocketもしくはSIP経由で音声ボットに流せる。世界中で使われている電話インフラとLLMを接続することも可能だ。

　実装で最も注意が必要なのが、CPaaSとリアルタイムAPIの間のWebSocket仕様の差分だ。OpenAIのRealtime APIとGemini Live APIではAPIの仕様が異なり、CPaaS側もサービスによって音声データの仕様が違う。Vonage Voiceの場合、コーデックはリニアPCM 16bit（サンプリング周波数8kHzまたは16kHz）、ペイロード周期は20ms固定だ。OpenAI側（PCM 24kHz）に合わせるにはサンプリングレートの変換も必要になる。

　「音声は目に見えないので、何がいけないかなかなかわかりづらく、トラブルシューティングがしにくいです。サンプルがない状態でやると結構時間がかかります」と高橋氏は語った。この差分を吸収するサンプルコードもGitHubで公開されている。

　APIレベルの直接実装はハードルが高いと感じるなら、ローコードという選択肢もある。高橋氏が推奨するのはLiveKit Agentsだ。AIエージェント特化のオープンソースフレームワークで、自社構築もマネージドサービス（LiveKit Cloud）での利用も選べる。将来的なマルチモーダル対応も視野に入れた設計で、複数のLLMを切り替えながらベンダーロックインを回避できる点も利点だ。Googleが提供するGoogle ADKも同様の選択肢に入る。ローコードツールの充実により、開発コストは「最近小さくなりつつあります」と高橋氏は述べた。

　コストの試算も会場に示された。LiveKit Cloudを使い1カ月で1万分（166時間＝8時間勤務で20営業日程度）の通話を処理した場合、LLMにGPT-4o Realtime APIを使うとLLM利用料だけで約3,000ドル、Vonageの通話料や番号利用料も加えてトータル約50万円になる。「50万円だったら一人雇うより安いですし、コストとしては十分見合うのではないでしょうか」と高橋氏は話した。24時間365日稼働し、人数の制限もない点を考えれば、割安な選択だという見立てだ。

　高橋氏は、チャッピー電話を構築するオンラインハンズオン動画を公開しており、約1時間で実際に試せると説明し「エンジニアの方だったら1回やってみて、簡単にチャッピー電話を作れるということを体感していただきたい」と呼びかけた。