DeepSeek AIは4月26日(現地時間)、効率重視と高性能を両立したAIモデルシリーズの進化を紹介した。
近年、AI開発が単純な巨大化路線から効率的な設計や専門的推論、オープンソース指向へと軸足を移す中、DeepSeekはMixture-of-Experts(MoE)アーキテクチャの革新により注目されている。
特にDeepSeek-V2シリーズやDeepSeek-Coder-V2は、Multi-head Latent Attention(MLA)技術により推論時のメモリ消費と計算負荷を抑えつつ、高い処理能力と長いコンテキスト対応を実現した。加えて、モデル内部の一部パラメータのみを活性化することで省エネ化を達成し、細粒度の専門エキスパートを活用した高度な専門性にも対応している。
DeepSeek-Coder-V2モデルは、RustやC++、Pythonなど300超の言語に対応し、128,000トークンの文脈長を生かした大規模コードベース解析や中間挿入補完など、実用面でも高い評価を得ている。MMLUやHumanEvalなどの第三者ベンチマークでもGPT-4oやClaude 3.5 Sonnetと同等の成績を示している。
APIは競合の1/10程度の価格で提供されており、商用・個人問わず幅広く利用が可能だ。さらに学術論文によるトレーニング手法の透明公開や、モデルと重みのオープン提供によって国際的な開発者コミュニティも形成されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
