ConversationRelayが実現する自然な対話──最適なLLMやサービスを選んで連携
Twilioが提供する電話とAIをつなぐ音声連携サービス「ConversationRelay」を詳しく見ていこう。電話の音声を文字起こしして、それぞれの環境で使うLLMに渡す。そして、LLMが出力するテキストを再び音声に変換して読み上げる。この一連の流れをワンパッケージで提供しているソリューションだ。
特徴としては、それぞれの環境で使うサービスやLLMに自由に接続できることだ。そのためLLMはGeminiでも、ChatGPTでも、Claudeでも、どれでもいい。また音声認識や音声合成とのサービス接続もリアルタイムかつ超低遅延でできるため、より人間らしい会話に近づく。もしAIが返事している途中に人間が割り込んでも、AIは一度立ち止まって聞いてから応答するなど、より人間のオペレーターの返答に近づけることができる。
業務の性質に合わせて最適なサービスを柔軟に選べるところが優位点であり、人間らしい会話を実現するための大きなポイントだ。会話の一連の流れでは、聞く(音声認識:Speech-to-Text)、回答を考える(LLM)、話す(音声合成:Text-to-Speech)のプロセスに分けることができて、それぞれのプロセスに応じてGoogle、AWS、Deepgram、ElevenLabsから多様なサービスが提供されている。
例えば電話品質(ノイズが入る)の日本語認識に強いGoogle、感情豊かな声を生成できるElevenLabs、遅延が少ないDeepgram、他にも低コスト、多言語対応など、それぞれに独自の強みや特徴がある。自由に選べるのは大きなメリットだ。
一般的には、異なるベンダーのAPIを連携することや、人間が話し始めたら会話を止めるといった割り込みも入ると制御が複雑になる。しかしConversationRelayはこうした複雑なオーケストレーションをTwilioが吸収する。アプリケーション開発者はTwilioとのWebSocketのコネクションを用意するだけで、あとはAIロジックに専念できる。具体的にはTwiMLの<ConversationRelay>タグに接続先のLLMやサービスを指定すればいい。そして既存のCRM(SalesforceやZendesk)、CCaaS(Contact Center as a Service:GenesysやNICEなど)とも連携できるので、既存システムを大きく変えることなく導入できる。
ConversationRelayが向いているのは、ある程度の開発力を持つISVや大企業だ。そのうえで「コア部分は自社で管理し、電話の応答部分は外部のサービスに委託したい」「AIエージェントを細かく自社制御したい」「好きなLLMを使いたい」「チャットボットに音声対応を追加したい」「レガシーIVRを生成AIでモダナイズしたい」「システム動作を自由にカスタマイズしたい」といった要望にマッチする。
活用事例の1つにアメリカの医療費支払いの体験改善を目指すCedarがある。アメリカでは医療制度が複雑なため、患者は診察後の支払いに戸惑うことが多い。そこでCedarは医療費請求・支払いプロセスを簡素化するプラットフォームを提供している。そのなかでコールセンターの問い合わせにAIエージェントを導入しており、その音声連携をTwilioのConversationRelayが支えている。今では受電のAI自動対応が進み、顧客の満足度の向上や待ち時間の短縮といった成果をあげている。
講演ではConversationRelayを活用したピザ注文のデモが披露された。ブラウザから電話をかけるとAIが対応し、注文内容を確認しながら画面上にリアルタイムでピザのイメージが組み上がっていく。顧客が質問の途中で返事をしても自然に会話が成立することを、デモを通じて示した。
最後に中村氏は「AIが登場したからといって、人間が要らなくなることはないと考えています。しかしある程度のことはAIに任せることで、人間は人間しか対応できないことにフォーカスしたり、時間を短縮したりできるので、お客さまの体験をさらに向上させることが可能です。AIエージェントを活用したシステム構築をぜひ一緒に実現させてもらえればと考えています」と締めくくった。
Twilio Japanからのお知らせ
本セッションでご紹介したサービスにご興味を持たれた方は、ぜひ公式サイトをご覧ください。

