Google DeepMindは3月10日(現地時間)、新たなマルチモーダル埋め込みモデル「Gemini Embedding 2」のパブリックプレビューを開始したことを発表した。
同モデルはGeminiアーキテクチャを基盤とし、テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングする。入力として最大8,192トークンのテキスト、6枚までのPNG/JPEG画像、120秒までのMP4/MOV動画、音声、6ページまでのPDFドキュメントに対応する。
さらに複数モダリティを一度に入力でき、各メディア間の関係性を高精度に把握する。Matryoshka Representation Learning技術により、3,072次元から柔軟な出力次元調整が可能。Gemini APIやVertex AIを通じて利用でき、RAGやセマンティック検索、感情分析、データクラスタリングといった用途での活用が想定される。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
