米OpenAIは、新しい大規模言語モデル(LLM)「o1-preview」と、その縮小版「o1-mini」の提供を9月12日(現地時間)に開始した。同社が提供しているサブスクリプションサービス「ChatGPT Plus」、「ChatGPT Team」の契約者に限って提供する。発表当初、o1-previewには週30回、o1-miniには週50回の使用制限をかけていたが、17日に緩和し、o1-previewは週50回、o1-miniは1日に50回まで使用可能とした。
o1-previewの特長は、問い合わせを受けた後にしばらく考えてから答えを返す点にある。訓練の結果、思考過程を見直すことや他の考え方を試すこと、そして誤りを認識することを学んだという。
OpenAIの検証によると、o1-previewは物理学、化学、生物学の分野で博士課程の学生と同程度の能力を発揮するという。さらに、数学やコーディングでも高い能力を示すとしている。国際数学オリンピックの問題で検証したところ、GPT-4oの正答率は13%にとどまったが、o1-previewの正答率は83%に達したとしている。コーディングの能力についてCodeforcesの問題で検証した結果、上位11%に入る成績を残したという。
LLMには公序良俗に反する表現を返したり、虚偽の回答を出すなどの問題があるが、o1-previewはこの点でも進歩している。同社がLLMの出力内容について独自のテストで検証したところ、GPT-4oは100点満点中の22点だったが、o1-previewは100点満点中の84点を取ったとしている。
o1-previewと同時に提供を始めたo1-miniは、低コストで使える縮小版という位置付けだが、考えてから答えを返すという点はo1-previewと共通している。そしてOpenAIはo1-miniについて、コーディングに利用すると特に効果的だと説明している。
OpenAIは、「o1-previewはまだ公開したばかりで、Webの情報を参照したり、ユーザーからのファイルや写真のアップロードを受け付けるなどの機能を持っていない。一般的な用途にはGPT-4oの方が向いているが、複雑な理詰めの問題ではo1-previewが実力を発揮する」とGPT-4oとの使い分けと、それぞれの性格の違いを表現している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です