SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

Mistral AI、画像を理解するAIモデル「Pixtral 12B」を公開

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 仏Mistral AIは、新しい大規模言語モデル(LLM)、「Pixtral 12B」を9月17日(現地時間)に公開した。Pixtral 12Bは、Apache 2.0ライセンスで公開しているオープンソースソフトウェア。Hugging Faceのリポジトリからダウンロードできる。

 Pixtral 12Bの特長は、言語だけでなく画像を理解する能力を持つ点にある。同社のLLM「Mistral Nemo」を基にしたパラメーター数120億のLLMに、新開発の画像解釈モデル(パラメーター数は4億)を付け加えた。基になったMistral Nemoは、文字による問いあわせに文字で回答したり、数学の問題を解いたり、コードを書く能力を持っているが、Pixtral 12Bは新たに画像を内容を解釈して文字で説明する能力を備えた。

 具体的には、複雑な形状の円グラフの画像を解釈し、数値が大きい順に項目を挙げたり、細かい折れ線グラフの画像を解釈して、傾向が変わった時点を説明する能力を持つ。また、Webページのイメージを大ざっぱに手描きしたスケッチの写真を解釈し、そのページを再現するHTMLコードを生成する能力や、編集で不自然な部分を付加した写真画像を解釈し、何がおかしいのかを説明する能力も持っている。

 Mistral AIはPixtral 12Bをオープンソースソフトウェアとして公開するだけでなく、同社のチャットボットサービス「Le Chat」で対話型のユーザーインターフェイスを提供する。加えて、同社が提供するAPIサービス「La Plateforme」を通して、外部アプリケーションから利用可能なAPIとしても提供する。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20234 2024/09/25 18:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング