仏Mistral AIは、新しい大規模言語モデル(LLM)、「Pixtral 12B」を9月17日(現地時間)に公開した。Pixtral 12Bは、Apache 2.0ライセンスで公開しているオープンソースソフトウェア。Hugging Faceのリポジトリからダウンロードできる。
Pixtral 12Bの特長は、言語だけでなく画像を理解する能力を持つ点にある。同社のLLM「Mistral Nemo」を基にしたパラメーター数120億のLLMに、新開発の画像解釈モデル(パラメーター数は4億)を付け加えた。基になったMistral Nemoは、文字による問いあわせに文字で回答したり、数学の問題を解いたり、コードを書く能力を持っているが、Pixtral 12Bは新たに画像を内容を解釈して文字で説明する能力を備えた。
具体的には、複雑な形状の円グラフの画像を解釈し、数値が大きい順に項目を挙げたり、細かい折れ線グラフの画像を解釈して、傾向が変わった時点を説明する能力を持つ。また、Webページのイメージを大ざっぱに手描きしたスケッチの写真を解釈し、そのページを再現するHTMLコードを生成する能力や、編集で不自然な部分を付加した写真画像を解釈し、何がおかしいのかを説明する能力も持っている。
Mistral AIはPixtral 12Bをオープンソースソフトウェアとして公開するだけでなく、同社のチャットボットサービス「Le Chat」で対話型のユーザーインターフェイスを提供する。加えて、同社が提供するAPIサービス「La Plateforme」を通して、外部アプリケーションから利用可能なAPIとしても提供する。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です