米NVIDIAは、開発者が対話型AIサービスを構築できるフレームワーク「NVIDIA Jarvis」を4月12日(現地時間)に提供開始した。
Jarvisは、高精度な自動音声認識や言語理解、複数言語へのリアルタイム翻訳、新しいテキスト読み上げ機能を提供し、表現力に優れた対話型AIエージェントの開発を可能にする。異なる言語、発音、環境、専門用語で構成された10億ページ以上のテキストおよび60,000時間分の音声データで、数100万GPU時間をかけてトレーニングされたさまざまなモデルを使って構築されており、高い精度を実現している。
エンドツーエンドの音声パイプラインは100ミリ秒未満で実行可能であり、聴き取り、理解、応答の生成を高速に処理できる。音声パイプラインはクラウド、データ センター、エッジに展開し、瞬時にスケーリングして数100万ユーザーに対応可能。
同社は、Jarvisの活用シーンとして、患者を24時間モニタリングすることで医療従事者の厳しい負担を和らげるデジタルナースや、消費者が求めている商品を理解し最適な候補を提案するオンラインアシスタント、国境を越えた共同作業や、母国語でのライブコンテンツ視聴を可能にするリアルタイム翻訳を挙げている。
さらに同社は、世界最大規模のパブリックドメインの音声データセット「Common Voice」を提供するMozilla Common Voiceとも連携。Common VoiceとJarvisを使用してトレーニング済みモデルを開発し、そのモデルをMozillaコミュニティに無償で還元している。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です