Developers X Summit 2024 セッションレポート（AD）

日本経済新聞社の最新研究事例に学ぶ、マルチモーダルAI活用の勘所

【Session3】マルチモーダル AI 実装の課題と解決策

2025/01/09 12:00

ポスト

　2023年のGoogle I/Oで発表されたGeminiはGoogle DeepMindが開発したマルチモーダルな生成AIモデルだ。テキスト、画像、音声、動画など、複数の異なるデータ形式を理解して処理することができる。このGeminiの活用事例として、日本経済新聞社の日経イノベーション・ラボではマルチモーダルAIの概念検証として、政治資金収支報告書の解析や、画像からおすすめ記事を選出するなどを評価している。

ポスト

　本記事の内容は、講演当日である2024年11月14日時点の情報です。

複数のモダリティを統合的に処理できるマルチモーダルAIの可能性

　Googleは2023年5月のGoogle I/Oで、マルチモーダルAI「Gemini」を発表した。グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木美紀氏は「Geminiの最大の優位性として、複数のモダリティを統合して処理していることが挙げられます」と話す。多くのAIモデルはテキストや画像など特定のモダリティに特化しているが、Geminiは複数のモダリティを一元的に処理できて、よりシームレスで直感的な応答が可能となる。

　なおGeminiにはUltra、Pro、Nanoの3種類のサイズがある。Ultraは最も能力が高いモデルで、有償版のGemini Advancedで利用できる。Proは汎用的なサイズで、Google Cloudで利用できる。Nanoはモバイル向けの軽量モデルで、Androidで利用できる。

　例えばピンクと青の毛糸玉が並んで表示されている画像をGeminiに与えて「ここから何を作るかアイデアをください」と質問してみると、毛糸の色から着想を得て「（編み物の）タコを作るのはどうですか？」と回答する。また楽譜の画像をGeminiに与えて「これはどういう意味ですか」と質問すると、「8分の6小節です。強弱記号は……」と専門的な内容も含めて回答することができる。

　またGeminiはマルチモーダルだけではなく、言語モデルとしての能力も優れている。MMLU（専門知識を問う大規模言語モデルのベンチマーク）では既存の生成AIの最高スコアを更新し、人間の専門家のスコアを超えた初めてのモデルとなった。

　Google Cloudからの紹介の最後に、葛木氏は「Project Astra」のデモ動画を披露した。まだ開発段階ではあるものの、これは新しいタイプのAIアシスタントとなる。Google Pixelスマートフォンやメガネデバイスのカメラを通じて画像を与え、人間の音声での質問に答える。例えば「この中で音を発するものは？」と質問するとカメラ画像から「スピーカーがあります」、また「この部分は何と呼ばれていますか？」と特定の部位を指すと「ツイーターです」と答える様子が分かる。ぜひリンクから全編を見てほしい。

Project Astra：Our vision for the future of AI assistants

　葛木氏は「GeminiのようなマルチモーダルAIをご利用いただくと、よりビジネスの可能性が広がります」と話す。

次のページ
紙媒体の資料をマルチモーダルAIで読み解く

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers X Summit 2024 セッションレポート連載記事一覧: クレディセゾンの5年間のDXを振り返る～バイモーダル戦略による内製開発組織の構築と進化～

旭化成のDXエキスパート西野大介氏が語る、大企業で働くITエンジニアの生存戦略

エンタープライズアジャイル、成功の鍵は？──問題領域の俯瞰と自社に適した解決策の発見

もっと読む

この記事の著者: 加山恵美（カヤマエミ）

フリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Onlineの取材・記事や、EnterpriseZine/Security Onlineキュレーターも担当しています。Webサイト：http://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 山出高士（ヤマデタカシ）

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事