米OpenAIは、AIチャットボットであるChatGPTと、音声認識モデルWhisperをAPIで利用できるようにすることで、最先端の言語および音声テキスト変換機能へのアクセスを可能にしたことを、3月1日(現地時間)に発表した。
ChatGPT APIで提供されるモデルはChatGPTと同じ「gpt-3.5-turbo」で、利用価格は1000トークンあたり0.002米ドルと、GPT-3.5と比較して10分の1となっている。
さらに、特定のモデルバージョンとシステムパフォーマンスをより詳細に制御したいユーザー向けに、専用インスタンスの提供も行っており、APIはAzure上で実行され、その処理のために予約された計算インフラストラクチャの割当に対して、期間ごとに料金を支払う必要がある。1日あたり最大4億5000万トークンを超える開発者にとっては、経済的なメリットがあるといえる。
Whisper APIは、最新のv2モデルを利用でき、1分あたり0.006ドルでのオンデマンドアクセスが可能となっている。ソース言語で書き起こすtranscriptions(転記)、または英語で書き起こすtranslations(翻訳)ができ、m4a、mp3、mp4、mpeg、mpga、wav、webmといった多彩な音声形式に対応する。
なお、APIを通じて送信されたデータは、組織がオプトインしない限り、モデルのトレーニングを含むサービスの改善には使われない。また、APIユーザー向けにデフォルトで30日間のデータ保持ポリシーが定められており、ローンチ前のレビューが削除されたほか、開発者向けドキュメントの改善、データの所有権に関する条件を含む、利用規約と使用ポリシーの簡略化が行われた。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です