SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

OpenAI、「GPT-5」を発表 複雑なフロントエンド生成や大規模リポジトリのデバッグが可能に

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 OpenAIは8月7日(米国時間)、新たな大規模言語モデル「GPT-5」を発表した。すでに、Plus、Pro、Team、無料版の全ユーザーが同モデルを利用できる。

 「GPT-5」が従来のモデルを上回るベンチマーク性能を持つ一方、ハルシネーションの低減、指示順守能力の改善、迎合的な回答の抑制でも従来のモデルから大きく進歩した。

 同モデルでは、複雑なフロントエンドのコーディングや、大規模リポジトリのデバッグにおいて、大きな進化を遂げた。ニュースソースでは、プロンプトで要件を与えて作成したゲームアプリが例示されている。

 また、文章作成においても、大まかなアイデアを、文学的な深みとリズムを備えたクリエイティブな表現に変換することが可能になった。

 「GPT‑5」は 数学、コーディング、視覚認識、医療などあらゆる分野で、学術評価ベンチマークと人手評価ベンチマークの両方から進歩を示している。数学の分野では AIME 2025(アメリカ合衆国の高校生向け数学競技)で94.6%(ツールなし)を記録し、実践的なコーディングではソフトウェア評価の SWE-bench で74.9%を記録。いずれも、従来モデルの「OpenAI o3」、「GPT-4o」を上回るものだ。

出典:OpenAI
出典:OpenAI
出典:OpenAI
出典:OpenAI

 ハルシネーションについて、ChatGPTの実運用トラフィックを模したプロンプトでは、従来の「GPT-4o」と比べ事実誤認が約20%少なく、thinkingモードでは「OpenAI o3」と比べて約70%も少なくなっている。

 特に、複雑で自由回答式の質問に対して信頼性の高い推論を行うことが可能で、オープンソースのプロンプトに対するハルシネーション率は、「OpenAI o3」と比べて約6分の1にまで低減した。

出典:OpenAI
出典:OpenAI

 また「GPT-5」は、実行不可能なタスクや前提条件が不足しているタスク、必要なツールが書けているタスクにおいて、正直な回答を示すように改善された。この点の検証として、マルチモーダルベンチマークの CharXiv のプロンプトから画像をすべて削除してテストしたところ、 「OpenAI o3」 は存在しない画像についても 86.7% の確率で自信があるように回答したが、 「GPT‑5」ではわずか 9% にとどまっている。

 また、「GPT-4o」のアップデート時にはモデルが過度に迎合的な態度を示す事象が発生したが、「GPT-5」では迎合度を測定する新しいオフライン・オンライン評価を開発。ユーザー嗜好のモデルの更新など、ターゲットを絞った学習介入を実施して、指標を改善した。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/news/detail/22078 2025/08/08 12:30

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング