米OpenAIは、ディープラーニング研究における最新のマイルストーンとなる「GPT-4」を、3月14日(現地時間)に発表した。
GPT-4は、画像とテキストの入力を受け入れ、テキストで出力を発行する大規模なマルチモーダルモデルであり、現実世界のシナリオの多くでは人間よりも能力が劣るものの、専門的および学術的なベンチマークにおいて、人間レベルのパフォーマンスを実現している。
カジュアルな会話では、GPT-3.5とGPT-4の差異は微妙なものの、タスクの複雑さがある程度のレベルに達すると、GPT-4はGPT-3.5よりも信頼性が高く、創造的であり、より微妙な指示を処理できる。
テキストだけでなく、画像の入力にも対応しており、視覚または言語タスクの指定が可能となっている。具体的には、テキストと画像が混在する入力を指定して、テキスト出力(自然言語、コードなど)を生成する。テキストと写真、図、スクリーンショットを含む文書など、さまざまな領域において、テキストのみの入力の場合と同様の機能を発揮できる。さらに、テキストのみの言語モデル用に開発されたtest-time手法(few-shotや思考連鎖プロンプトなど)を使用した拡張にも対応する。なお、画像入力はまだ研究プレビュー段階にあり、公開はされていない。
現状では、これまでのGPTよりは少なくなったものの、GPT-4も推論の誤りを犯すことがある。また、さまざまな事前トレーニングの工夫にも関わらず、GPT-4は有害なアドバイス、バグのあるコード、不正確な情報の生成といった、従来のGPTと同様のリスクをもたらす可能性がある。
ただし、専門家との協力による追加データの収集、および安全報酬信号の組み込みなどによって、有害な出力を減らすことに成功している。
現時点で、ChatGPT Plusへの登録者は使用上限付きでGPT-4にアクセスできる。また、GPT-4 APIへのアクセスには待機リストへのサインアップが必要である。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です