米OpenAIは、APIを通じて音声からテキストへの変換、およびテキストから音声への変換を可能にする新たなオーディオモデルを、3月20日(現地時間)にリリースした。
新たなオーディオモデルを利用することで、より強力でカスタマイズでき、かつインテリジェントな音声エージェントの構築が可能になる。同モデルは、アクセント、騒がしい環境、さまざまな音声速度を含む難しいシナリオにおける精度や信頼性で、既存のソリューションを上回っており、コールセンターや会議メモの文字起こしといったユースケースに適している。
今回、リリースされたのは既存のオーディオモデルであるWhisperと比較して、単語誤り率を改善するとともに、言語認識と精度を向上したgpt-4o-transcribeおよびgpt-4o-mini-transcribeで、gpt-4o-transcribeは複数のベンチマークにおいて、Whisperよりも単語誤り率(WER)のパフォーマンスが向上した。なお、gpt-4o-transcribeとgpt-4o-mini-transcribeは、音声からテキストへの変換を行うAPIとして利用できる。
あわせて、操作性を向上したモデルgpt-4o-mini-ttsもリリースされており、同モデルはカスタマーサービスからクリエイティブなストーリーテリングなど、多彩やユースケースにおいてカスタマイズされたエクスペリエンスを実現し、テキスト読み上げAPIでの利用が可能になっている。
新たなオーディオモデルは、GPT-4oおよびGPT-4o-miniアーキテクチャを基盤とし、モデルのパフォーマンスを最適化する上で重要となる、音声に特化したデータセットによって広範な事前学習が行われた。
さらに、蒸留技術の強化によってより小さく効率的なモデルへの転換を実現しており、リアルな会話のダイナミクスを効果的に捉えて、本物のユーザーとアシスタントの対話を再現することで、より小さなモデルでも優れた会話品質と応答性を可能にしている。
また、音声からテキストへの変換モデルは、強化学習(RL)を重視することによって、文字起こしの精度を最先端のレベルまで引き上げており、精度が大幅に向上するとともにハルシネーションが軽減されるので、複雑な音声認識シナリオにおいて非常に優れた競争力を発揮する。
新たなオーディオモデルは、現時点ですべての開発者が利用できる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です