CodeZineニュース

OpenAIが機械学習言語モデル「GPT-4」を発表、画像入力にも対応

2023/03/15 18:30

ポスト

ポスト

　米OpenAIは、ディープラーニング研究における最新のマイルストーンとなる「GPT-4」を、3月14日（現地時間）に発表した。

　GPT-4は、画像とテキストの入力を受け入れ、テキストで出力を発行する大規模なマルチモーダルモデルであり、現実世界のシナリオの多くでは人間よりも能力が劣るものの、専門的および学術的なベンチマークにおいて、人間レベルのパフォーマンスを実現している。

　カジュアルな会話では、GPT-3.5とGPT-4の差異は微妙なものの、タスクの複雑さがある程度のレベルに達すると、GPT-4はGPT-3.5よりも信頼性が高く、創造的であり、より微妙な指示を処理できる。

　テキストだけでなく、画像の入力にも対応しており、視覚または言語タスクの指定が可能となっている。具体的には、テキストと画像が混在する入力を指定して、テキスト出力（自然言語、コードなど）を生成する。テキストと写真、図、スクリーンショットを含む文書など、さまざまな領域において、テキストのみの入力の場合と同様の機能を発揮できる。さらに、テキストのみの言語モデル用に開発されたtest-time手法（few-shotや思考連鎖プロンプトなど）を使用した拡張にも対応する。なお、画像入力はまだ研究プレビュー段階にあり、公開はされていない。

　現状では、これまでのGPTよりは少なくなったものの、GPT-4も推論の誤りを犯すことがある。また、さまざまな事前トレーニングの工夫にも関わらず、GPT-4は有害なアドバイス、バグのあるコード、不正確な情報の生成といった、従来のGPTと同様のリスクをもたらす可能性がある。

　ただし、専門家との協力による追加データの収集、および安全報酬信号の組み込みなどによって、有害な出力を減らすことに成功している。

　現時点で、ChatGPT Plusへの登録者は使用上限付きでGPT-4にアクセスできる。また、GPT-4 APIへのアクセスには待機リストへのサインアップが必要である。

関連リンク: ブログポスト（英語）

OpenAI（英語）

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事