「複雑なタスクほど差が広がる」Fable 5の3つのブレークスルー
「ほんの数時間前に、第5世代のClaudeモデル——Claude Mythos 5とClaude Fable 5をリリースした。この2つは私たちがこれまで作ってきた中で最も高性能なモデルだ」。Claude Platform エンジニアリング責任者のKatelyn Lesse氏は基調講演の冒頭にそう告げ、詳細はResearch and Labs プロダクトマネジメント責任者のDianne Penn氏に委ねた。
「Claude 2から始まり21回のリリースに携わってきたが、今回は明らかに質が違う」と語り始めたPenn氏は、Fable 5の特徴を3つの観点から整理した。
第1はコーディング性能だ。「SWE-Benchで最高スコアを記録しているが、ベンチマークだけでは全体像を語れない。タスクが長く、複雑で、高度になればなるほど、Fable 5と他のすべてのモデルとの差は大きくなる」。初期テスターからは、チームが数日から数週間かかる作業を単一プロンプトで完結させた事例が寄せられているという。Cognitionが自社フロンティアコーディングベンチマークで評価したところ最高スコアを記録し、JetBrainsの社内評価でも全モデルを抑えて1位を獲得した。コードを書く能力だけでなく読む能力も高く、Gitの履歴を辿って何がいつ壊れたかを把握し、改善のための提案を先回りして示すことができる。
第2は長時間の自律稼働だ。「Fable 5は単一のゴールで何日間も走り続け、終始一貫性を保つ。数百万トークンにまたがるタスクでも仕様を覚え続け、サブエージェントをディスパッチして軌道を修正する能力も他のどのモデルよりも有能だ」。Penn氏が「タスク・ホライズン」と呼ぶこの能力は、モデルが一貫性を失わずに自律的に動き続けられる期間の長さだ。プロジェクトのアップデートを一度書くよう頼むのではなく、週全体を通じてプロジェクトが軌道に乗り続けるよう管理を任せるといった使い方が現実になる。
第3はビジョン性能だ。技術的な画像、Webアプリのスクリーンショット、グラフや散布図を他のどのバージョンよりも高精度で読み取る。財務分析、ドキュメント、スライド、スプレッドシートなど「組織が実際に動いている業務」をエンドツーエンドで処理し、プロ品質の成果物を返すとPenn氏は言う。
高性能と安全の両立——Mythos 5の設計思想
Fable 5はサイバーセキュリティ・生物学・化学のトピックを含むリクエストをClaude Opus 4.8へ自動ルーティングする安全機構を備える。「まだ完璧ではない。正当な研究をしている研究者がブロックされてしまうことがある」とPenn氏は正直に認めながら、「それが最も高性能なモデルを今日誰もの手に届けるためのトレードオフだ」と続けた。
一方のClaude Mythos 5はFable 5と同じ基盤モデルから、こうした安全機構を外したバージョンだ。「生物学をリスクの高いものにしているその同じ能力こそが、AIで真の善をなすために最も大きなインパクトをもたらす能力だ」とPenn氏は言う。今日より「Project Glasswing」プログラムを通じてAnthropicが選定した研究機関・パートナーが利用できるようになり、今月後半にはライフサイエンス分野の研究者への拡大も予定されている。
開発者へのアドバイスとしてPenn氏が示したのは3つの指針だ。まず「現行のClaudeだけでなく、次のバージョンを前提に設計すること」。モデルが賢くなるほど基礎的なプリミティブがより深く活用でき、過剰な設計は不要になっていく。次に、まだ動かないかもしれない体験に向けて今から設計を始めること。「ずっと安定して動かなかった体験が突然動き始めるとき、それは指数関数的な変化が足元で起きているシグナルだ」。そして「モデルのアップグレードをビジネスチャンスとして扱い、自動評価とハンズオンテストを回し続けること——それが新たな能力を顧客への新しい体験に変える唯一の方法だ」。
「Claudeはどんどん賢くなり、新たな能力をスケールで取得できるようになる。その変化を最初に感じるのは皆さん開発者だ。実験を行い、製品を作り、他の人がまだ気づいていない新しい市場の機会を最初に見つけ出す——次に何を構築してくれるか、楽しみにしている」。Penn氏はそう語りステージを降りた。
