Google DeepMindは6月3日(現地時間)、最新のマルチモーダルAIモデル「Gemma 4 12B」を公開した。
Gemma 4 12Bは、画像・音声・テキストの統合入力に対応し、従来必要だったマルチモーダルエンコーダーを排除した統一構造を採用した点が特徴である。この設計により、視覚や音声情報が直接大規模言語モデル(LLM)バックボーンに入力され、メモリ効率と処理速度の向上を実現した。
性能面では、標準ベンチマークで上位モデルに近い推論能力を持ちつつ、16GBのRAMやVRAM搭載ノートPCでも動作する軽量設計となっている。
また、Gemma 4シリーズの累計ダウンロード数が1億5000万を突破したことも明らかにされた。Gemma 4 12BはApache 2.0ライセンスの下で公開されており、Hugging Faceなどからモデルが入手可能。開発者向けにドキュメントやスキルリポジトリも用意されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
