SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2026 セッションレポート(AD)

月額50万で24時間働く“賢い”AIオペレーターは自作できる──生成AI音声ボットの最前線とCPaaS連携

【19-D-5】「電話」が知能を持つ日。実用レベルに達した生成AI音声ボットのアーキテクチャとライブデモ

外部知識と連携して「賢いエージェント」に——コスト設計も腕の見せどころ

 会話ができるだけでは業務に使えない。FAQへの回答や予約登録、社内ナレッジ検索といった「賢さ」を持たせる仕組みがFunction Callingだ。LLMにツールの定義を渡しておくと、特定の質問が来たときに指定した関数を呼び出す。外部APIの呼び出しやMCPサーバーの利用、RAGによる社内文書の検索連携など、幅広い用途に対応できる。

 留守番電話サービスTRANSRECの場合、FAQとの連携にGoogle CloudのVertex AI Agent Builderを活用している。Function Calling経由で音声ボットから呼び出す構成で、サンプルコードはGitHubで公開されている。

RAGと連携するワークフローのイメージ
RAGと連携するワークフローのイメージ

 賢くするほど気になるのがコストだ。リアルタイムAPIはトークン数に応じた課金のため、会話が長くなるほど費用が膨らむ。セッション冒頭のデモでも、営業電話を断った短いやり取りで7円、サービス問い合わせでは20円がかかっていた。「いかにコンテキストを短くしていくか、ここが腕の見せどころになってきます」と高橋氏は強調した。

 対策は、軽量モデルの活用・ステート管理によるトークン削減・音声向けプロンプトチューニングの3本柱だ。音声向けには短文回答の指示やURLリンクの排除が有効という。高橋氏自身はこうした試行錯誤を効率化するため、デモを行なった「チャッピートレーニング」ツールを自作・公開している。実際に会話しながら試すことで1通話あたりのコストの感覚がつかめる。

電話とAIをつなぐCPaaS——実装の勘所とローコードという選択肢

 音声ボットをブラウザ上だけでなく実際の「電話」として使うには、もう一つのピースが必要だ。それがCPaaS(Communications Platform as a Service、シーパスまたはシーパース)だ。電話・SMS・Videoなどのコミュニケーション機能をAPIとして提供するクラウド基盤で、代表的なサービスにVonageとTwilioがある。なお、KDDIウェブコミュニケーションズはVonageの国内販売代理店でもある。

 CPaaSと契約すれば日本を含む世界各国の電話番号を取得でき、着信した通話をWebSocketもしくはSIP経由で音声ボットに流せる。世界中で使われている電話インフラとLLMを接続することも可能だ。

CPaaSのアーキテクチャ(各国通信事業者〜CPaaS〜音声ボット)
CPaaSのアーキテクチャ(各国通信事業者〜CPaaS〜音声ボット)

 実装で最も注意が必要なのが、CPaaSとリアルタイムAPIの間のWebSocket仕様の差分だ。OpenAIのRealtime APIとGemini Live APIではAPIの仕様が異なり、CPaaS側もサービスによって音声データの仕様が違う。Vonage Voiceの場合、コーデックはリニアPCM 16bit(サンプリング周波数8kHzまたは16kHz)、ペイロード周期は20ms固定だ。OpenAI側(PCM 24kHz)に合わせるにはサンプリングレートの変換も必要になる。

 「音声は目に見えないので、何がいけないかなかなかわかりづらく、トラブルシューティングがしにくいです。サンプルがない状態でやると結構時間がかかります」と高橋氏は語った。この差分を吸収するサンプルコードもGitHubで公開されている。

 APIレベルの直接実装はハードルが高いと感じるなら、ローコードという選択肢もある。高橋氏が推奨するのはLiveKit Agentsだ。AIエージェント特化のオープンソースフレームワークで、自社構築もマネージドサービス(LiveKit Cloud)での利用も選べる。将来的なマルチモーダル対応も視野に入れた設計で、複数のLLMを切り替えながらベンダーロックインを回避できる点も利点だ。Googleが提供するGoogle ADKも同様の選択肢に入る。ローコードツールの充実により、開発コストは「最近小さくなりつつあります」と高橋氏は述べた。

 コストの試算も会場に示された。LiveKit Cloudを使い1カ月で1万分(166時間=8時間勤務で20営業日程度)の通話を処理した場合、LLMにGPT-4o Realtime APIを使うとLLM利用料だけで約3,000ドル、Vonageの通話料や番号利用料も加えてトータル約50万円になる。「50万円だったら一人雇うより安いですし、コストとしては十分見合うのではないでしょうか」と高橋氏は話した。24時間365日稼働し、人数の制限もない点を考えれば、割安な選択だという見立てだ。

 高橋氏は、チャッピー電話を構築するオンラインハンズオン動画を公開しており、約1時間で実際に試せると説明し「エンジニアの方だったら1回やってみて、簡単にチャッピー電話を作れるということを体感していただきたい」と呼びかけた。

開発者向けサイトをオープンしました!

 Vonageでは開発に必要な各種ドキュメントやSDKをオンライン上で公開しています。詳細はKWCPLUS Devをご覧ください。またチャッピー電話のオンラインハンズオンはこちらから視聴申し込み受付中です。

関連リンク

この記事は参考になりましたか?

Developers Summit 2026 セッションレポート連載記事一覧

もっと読む

この記事の著者

森 英信(モリ ヒデノブ)

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

関口 達朗(セキグチ タツロウ)

フリーカメラマン 1985年生まれ。東京工芸大学卒業後、2009年に小学館スクウェア写真事業部入社。2011年に朝日新聞出版写真部入社。2014から独立し、政治家やアーティストなどのポートレート、物イメージカットなどジャンルを問わず撮影。2児の父。旧姓結束。趣味アウトドア。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:株式会社KDDIウェブコミュニケーションズ

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

CodeZine(コードジン)
https://codezine.jp/article/detail/23625 2026/04/08 11:30

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング