Cognition AIは4月14日(現地時間)、Applied Computeとの提携によって開発したソフトウェアバグ検出モデル「SWE-check」を発表した。
SWE-checkは、強化学習(RL)を用いた専門タスクのトレーニングを通じて、バグ検出能力を高められている。特に「in-distribution」評価では指標F1値の差が0となり、最先端大規模モデルと同等の性能を確認。未知のデータを用いた「out-of-distribution」評価でも差分を削減しつつある。なお、現状では未知データに対する性能面で最先端より劣るものの、推論の高速化と低コストによりIDEでの即時バグ検出体験が可能となる。
モデルの訓練過程では、本番環境のツールセットを再現し、さまざまなバグが仕込まれた独自データセットを作成したほか、ユーザーフィードバックをもとに反復改良を行った。さらに、「リワード線形化」と呼ばれる新技術でサンプル単位の報酬を設計し、2段階の事後訓練(能力最大化フェーズと製品連携フェーズ)を採用することで、精度と速度の両立を図った。
また、SWE-checkはコード変更による潜在的なバグを自動検出し、構造化されたバグ情報出力や修正提案をWindsurf環境上で提供する。現在はWindsurf Nextでプレビュー利用可能で、今後公式版Windsurfでも公開予定としている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
