米OpenAIは、大規模言語モデル(LLM)「GPT-4o」の画像解釈能力の微調整を可能にするAPI「fine-tuning API」を公開した。OpenAIによるとGPT-4o公開以来、数多くの開発者が特定用途での能力向上を狙って微調整に挑んできたが、テキストデータしか使えなかったため、大きな効果を挙げることはできていないという。
fine-tuning APIを使うには、画像データの場所を示すURLや、補足のテキストなどをJSON形式にまとめて「Uploads API」を通してアップロードする。画像ファイルの大きさは最大で10Mバイトまでとなっており、形式はJPEG、PNG、WEBPに対応する。OpenAIがWebで提供している「Fine-tuning」ダッシュボードから操作することも可能だ。
そして、悪用を避けるために人物、顔、子ども、CAPTCHAの画像は受け取らない。OpenAIによると、100枚程度の画像でも効果が現れることがあり、さらに多くのデータを投入すれば効果はどんどん上がっていくという。
そして2024年10月31日までは、このAPIを1日当たり100万トークンまで無料で利用できる。その後は、学習時に100万トークン当たり25米ドルかかり、推論時には100万入力トークンごとに3.75米ドル、出力出力トークンごとに15米ドルかかるようになる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です