米Anthropicは、新たなAIモデルである「Claude 3」ファミリとして、「Claude 3 Haiku」「Claude 3 Sonnet」「Claude 3 Opus」を、3月4日(現地時間)に発表した。「Claude 3 Sonnet」と「Claude 3 Opus」は、claude.aiとClaude APIで使用できるようになり、「Claude 3 Haiku」は近日中の公開を予定している。
Claude 3ファミリのうち、もっともインテリジェントなOpusは、学部レベルの専門知識(MMLU)、大学院レベルの専門推論(GPQA)、基礎数学(GSM8K)といったAIシステムの一般的な評価ベンチマークのほとんどにおいて、他のモデルよりも優れた成績を獲得した。複雑なタスクについて、人間に近いレベルの理解力と流暢さを示している。
Claude 3ファミリはいずれも、即時かつリアルタイムで応答する必要があるライブ顧客チャット、オートコンプリート、データ抽出タスクの強化が可能で、Haikuはインテリジェンスカテゴリの市場でもっとも高速かつコスト効率の高いモデルとなる。arXiv上の情報とデータの密度が高い研究論文(約10000トークン)を、チャートやグラフとともに3秒以内に読むことができ、将来的にはさらなるパフォーマンス向上が期待される。Sonnetは、大部分のワークロードにてClaude 2およびClaude 2.1と比較して2倍高速となっており、より高いレベルのインテリジェンスを備えている。また、OpusはClaude 2およびClaude 2.1と同等の速度ながら、はるかに高いレベルのインテリジェンスを備える。
Claude 3ファミリは、他の主要なAIモデルと同等の高いビジョン機能を備えており、写真、チャート、グラフ、技術図といった幅広いビジュアル形式の処理が可能となっている。
また、従来のClaudeモデルでは、文脈の理解の欠如を示唆する不必要な拒否を行うことがよくあったが、Opus、Sonnet、Haikuは前世代のモデルと比較して、システムのガードレールに漸近するプロンプトへの応答を拒否する可能性が大幅に低くなった。
Opusは、Claude 2.1と比較して自由形式の質問に対する精度(または正解率)が2倍向上するとともに、不正解率も低下している。
Claude 3ファミリでは、最初に20万のコンテキストウィンドウが提供される。ただし、3つのモデルいずれも100万トークンを超える入力を受け入れられる。長いコンテキストプロンプトを効果的に処理するには、堅牢なリコール機能がモデルに求められるが、Claude 3ファミリはプロンプトごとに30のランダムなニードル/質問のペアの1つを使用して、クラウドソースで提供された多様な文書コーパスでテストすることによって、このベンチマークの堅牢性を強化した。
Anthropicは、可能な限り信頼できるようClaude 3ファミリを開発しており、誤った情報やCSAMからの生物学的悪用、選挙妨害、自律複製スキルに至るまで、幅広いリスクを追跡し軽減する専門チームが、モデルの安全性と透明性を向上させる手法によって開発を行うことで、新たな手法によって引き起こされる可能性のあるプライバシー問題を軽減している。また、偏見を減らし、中立性を高め、特定の党派に寄った立場に偏らないようにする技術の発展に引き続き取り組んでいく。Claude 3ファミリは、以前のモデルと比較して生物学的知識、サイバー関連の知識、自律性の主要な尺度で進歩しているものの、責任あるスケーリングポリシーによるAI安全性レベル2(ASL-2)に留まっている。ただし、レッドチーム評価では現時点ではClaude 3ファミリが壊滅的なリスクをもたらす可能性はごくわずかではあるが、今後も将来のモデルを注意深く監視し、ASL-3の達成を目指す。
そのほか、Claude 3ファミリでは複雑かつ複数のステップに従うことが得意となっており、とりわけユーザーの信頼に足る顧客対応エクスペリエンスの開発に長けている。さらに、JSONなどの形式での一般的な構造化出力を生成するのに優れているため、自然言語分類や感情分析といったユースケースでの活用が容易になった。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です