SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

アレン人工知能研究所が画像も解釈するLLM「Molmo」を公開、GPT-4oに迫る性能を実現

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 米アレン人工知能研究所(Allen Institute for Artificial Intelligence:Ai2)は、テキストだけでなく画像も解釈する大規模言語モデル(LLM)「Molmo(Multimodal Open Language Model)」を9月25日(現地時間)に公開した。MolmoはApache 2.0ライセンスで公開しているオープンソースソフトウェア。

 アレン人工知能研究所によると、オープンソースで画像も解釈するLLMは、学習データとして人工的に生成したデータに頼っているが、これが理由で性能がなかなか上がらず、オープンソースではない独自のLLMに比べて低い性能にとどまっているという。そして、オープンソースの開発者たちは、画像を解釈するLLMの性能を引き上げるための基本的な知識も持てずにいるとしている。

 今回公開したMolmoでは、学習データとして人間が画像について詳細に説明したものを用意した。その結果、Molmoの最も大規模なモデルはベンチマークテストで米OpenAIの「GPT-4o」や、Anthropicの「Claude 3.5」、Google Deepmindの「Gemini 1.5」といった他社の代表的なLLMに並ぶほどの性能を発揮するようになった。特に、およそ720億のパラメーターを持つ最大のモデルである「Molmo-72B」の性能は、GPT-4oにはわずかに劣るが、「Gemini 1.5 Pro」や「Claude 3.5 Sonnet」を上回るという。

 今回は「Molmo-72B」のほか、「Molmo-7B-O」「Molmo-7B-D」「MolmoE-1B」の4種類を公開する。先述の通りMolmo-72Bは、Molmoシリーズでも最高の性能を誇るモデルだ。中国Alibaba Cloudが開発したLLM「Qwen2-72B」に、OpenAIの画像分類モデル「CLIP(Contrastive Language-Image Pre-training)」を組み合わせたものを改良した。

 Molmo-7B-Oは、パラメーター数およそ70億のモデルで、アレン人工知能研究所が開発したOLMo(Open Language Model)に、OpenAIのCLIPを組み合わせて改良している。その性能は、OpenAIのGPT-4V(GPT-4に画像認識能力を持たせたもの)と、GPT-4oの間に当たり、仏Mistral AIの「Pixtral 12B」を明らかに上回るという。

 Molmo-7B-Dは、Molmoの公開に合わせて開設した試用サイトで稼働しているLLMであり、その性能はMolmo-7B-Oとほぼ同等だという。パラメーター数もMolmo-7B-Oと同等のおよそ70億となっている。基にしたLLMが、Alibaba Cloudの「Qwen2-7B」だという点がMolmo-7B-Oと異なるが、OpenAIのCLIPを組み合わせているところは共通している。

 MolmoE-1Bは、以上の3モデルとは少々毛色が異なる。基としているLLMはアレン人工知能研究所が開発した「OLMoE-1B-7B」であり、GPT-4Vとほぼ同等の性能を持つとしている。このモデルの特長は、Mixture of Experts(MoE)と呼ぶ手法を使った点にある。これはMistral AIの「Mixtral 8x7B」などのLLMが採用している手法で、ニューラルネットワークの各層に、複数の「専門家(Experts)」を配置し、入力トークン(単語、文字列など、入力文を分割したもの)ごとに専門家を選んで適切なところに送るようにしたものだ。この結果、モデルのパラメーター数のうち、トークン処理時に実際に稼働するのは一部だけになり、合計パラメーター数が示す数字の割には、少ないコンピュータ資源で稼働するモデルを構築できる。MolmoE-1Bの稼働時のパラメーター数は15億だが、合計すると72億になる。

 アレン人工知能研究所は今後数カ月の間に、それぞれのモデルのより詳細な技術解説と、学習に使ったデータセット、評価用のテストコードなどを公開していく予定だ。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20268 2024/10/01 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング