CodeZine(コードジン)

特集ページ一覧

ビデオ通話やライブ配信、メタバースまで対応する映像・音声向けAgora SDK【デブサミ2022】

【18-D-8】コロナ禍でますます需要の高まるビデオ通話・ライブ配信を作ろう!世界を魅了するAgora SDKとは

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2022/04/11 12:00

 コロナ禍の影響もあって、テレワークなどの映像・音声込みネット・コミュニケーションが大きく進展した。またオンラインエクササイズ教室やライブコマースなど、映像・音声込みビジネスも盛んだ。しかし実際、映像・音声込みのシステムを構築しようとすると、遅延、低品質、参加人数による影響など課題は多い。本講演では、そんな悩みを一気に解決できるPaaSを紹介する。Agoraは米国生まれの映像・音声向けのSDKで、わずか数行で実装が可能。国内取扱窓口のブイキューブ社によれば導入企業がコロナ禍1年間で約6倍と大きく成長している。デブサミではその特徴やメリットなどが紹介された。

目次
株式会社ブイキューブ 技術本部 PaaSグループ 藤本諭志氏(Twitter:@tenpa_ozisan https://twitter.com/tenpa_ozisan)
株式会社ブイキューブ 技術本部 PaaSグループ 藤本諭志氏(Twitter:@tenpa_ozisan

従来の映像・音声技術の課題をクリアし、高品質のサービスをクイックに開発できるAgora SDK

 ブイキューブは、ビデオコミュニケーション関連事業を展開する企業。Agora SDKとの出会いは、同社が米国に子会社を立ち上げた時に両国間のコミュニケーションに不便を感じたことから。同社も自らWeb会議ツールを開発するが、やがてAgoraにたどり着く。

 現在同社の事業は、企業内外コミュニケーション、イベントでのオンライン部分のサポート、会議室や公共機関の空きスペースをWeb会議に利用するといったソリューション提供を行っている。同社の各種ソリューション導入企業は、7,000社以上に上る。

 なぜAgora SDKは人気があるのか、株式会社ブイキューブ 技術本部 PaaSグループ 藤本諭志氏は「Agora SDKなら従来技術の課題をクリアし、高品質な映像・音声サービスをクイックに構築できるからです」と語った。その説明のために同氏は、従来技術の課題とAgora SDKの優位点を紹介した。

 Webブラウザやスマートフォンのアプリで映像・音声を送信する場合、当初はSkypeなど専用のアプリケーションを利用して行っていた。しかしインターネットが普及してくるとWebブラウザ上での映像・音声のニーズが増え、そこで登場したのがWebRTC(Web Real-Time Communication)やHLS(HTTP Live Streaming)といった技術だ。どちらも専用アプリ不要で、簡単に映像・音声を楽しめる。配信する側も特別な設備は不要なので、瞬く間にこれらの技術は広まった。しかし、映像・音声のニーズがどんどん高まってくると課題も生じてくる。

 WebRTCはP2P通信を元にした技術なので多人数での利用には強くない。多人数の対応には、P2Pの端末としてサーバーを導入する方法もあるが、こちらも利用者が増えればサーバーを強化する必要がある。HLSは利用者増に強いが、データの遅延が問題になる場合がある。HLSでは「ネットを介した会話は無理」(藤本氏)という。ほかにも両技術は、以下のような課題がある。

  • 学習コストが高い・クライアント端末の負荷が大きい
  • ブラウザやOSのアップデートごとに修正が必要
  • サーバーを停止させずにメンテナンスが難しい
  • 不具合発生時の調査が難しい

 藤本氏は「自社サービスに映像・音声を組み込んだアプリやWebサイトを開発する場合、WebRTCやHLSでは、工数がかさんでコストが上がるほか、工期が延びる場合がある」と指摘した。

AgoraとWeb RTC、CDN(HLS利用)などの技術比較
AgoraとWebRTC、CDN(HLS利用)などの技術比較

 しかしAgora SDKを使えば、クイックにこれらサービスを開発でき、高品質な映像・音声を届けられる。Agora SDKとは、映像・音声の送受信をサポートするPaaSで、クライアント側のSDKと映像・音声送受信用のインフラを提供する。

 インフラ内には独自プロトコルとネットワーク技術を用いた複数のサーバーが用意されていて、自動でスムーズにデータ送受信できるネットワーク経路を判断し、大量のデータでも遅延を少なくすることができる。インフラ内であれば遅延は、世界平均で76m秒、日本国内で端末から端末までだいたい30〜200m秒に収まる。これは「電話よりも低遅延です」と藤本氏は説明する。

 配信者17人+視聴者1,000,000人(チャンネルあたり)と大規模なサービスでも利用可能で、配信者と視聴者の入れ替えもできる。今後は、配信者数を128人まで増やすことを予定している。ほかにも、パケットロスが最大70%でも映像や音声の途切れを抑えられる。WebRTCの場合、一般には30%が限界だ。

 ネットワークの管理も容易に行える。エンドユーザーの利用しているデータ帯域、パケットロス、通話時間、入退室の状況などを把握できるダッシュボードが用意されているので、エンドユーザー側の問題で、映像・音声が送受信できないといったトラブルにも対応しやすい。

 音声に関しては、高音質なオーディオ、リアルタイムでの美声化と音響効果、超低遅延を可能にしたインホンモニタリングが特徴だ。高音質なオーディオは、48kHzの高サンプリングレート(人の声の最大20kHzを超える)、音声の評価基準MOS(Mean Opinion Score、主観的判断)で4.7獲得(最高が5.0)、音声のシーンに合わせた最適な品質を提供可能としている。音声のシーンとは、音楽と会話が混ざる、通話に特化する、といった多様な状況を指し、Agora SDKならそれぞれで最適な品質で音を再生できる。

 美声化技術は、ビデオ通話、歌唱といったモードごとに音声をリアルタイムで美化できるもの。音声エフェクトも可能で、声を子供や老人にすることもできる。インホンモニタリングは、オンラインカラオケやライブストリーミングの時に利用するもので、自分の発声をイヤホンでモニターする。ネットワークに遅延があると不自然になりがちだが、Agora SDKの超低遅延なら問題ないレベルだ。

 ほかにも、自分の顔を加工したり、メガネをかけたりできるARフィルター、アバター機能、ノイズ除去、ボイスチェンジャーなど、メタバースでの利用も期待される機能もある。


関連リンク

  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:Developers Summit 2022 レポート

もっと読む

著者プロフィール

  • 森 英信(モリ ヒデノブ)

    就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

あなたにオススメ

All contents copyright © 2005-2022 Shoeisha Co., Ltd. All rights reserved. ver.1.5