本記事の内容は、講演当日である2024年11月14日時点の情報です。
複数のモダリティを統合的に処理できるマルチモーダルAIの可能性
Googleは2023年5月のGoogle I/Oで、マルチモーダルAI「Gemini」を発表した。グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木美紀氏は「Geminiの最大の優位性として、複数のモダリティを統合して処理していることが挙げられます」と話す。多くのAIモデルはテキストや画像など特定のモダリティに特化しているが、Geminiは複数のモダリティを一元的に処理できて、よりシームレスで直感的な応答が可能となる。
なおGeminiにはUltra、Pro、Nanoの3種類のサイズがある。Ultraは最も能力が高いモデルで、有償版のGemini Advancedで利用できる。Proは汎用的なサイズで、Google Cloudで利用できる。Nanoはモバイル向けの軽量モデルで、Androidで利用できる。
例えばピンクと青の毛糸玉が並んで表示されている画像をGeminiに与えて「ここから何を作るかアイデアをください」と質問してみると、毛糸の色から着想を得て「(編み物の)タコを作るのはどうですか?」と回答する。また楽譜の画像をGeminiに与えて「これはどういう意味ですか」と質問すると、「8分の6小節です。強弱記号は……」と専門的な内容も含めて回答することができる。
またGeminiはマルチモーダルだけではなく、言語モデルとしての能力も優れている。MMLU(専門知識を問う大規模言語モデルのベンチマーク)では既存の生成AIの最高スコアを更新し、人間の専門家のスコアを超えた初めてのモデルとなった。
Google Cloudからの紹介の最後に、葛木氏は「Project Astra」のデモ動画を披露した。まだ開発段階ではあるものの、これは新しいタイプのAIアシスタントとなる。Google Pixelスマートフォンやメガネデバイスのカメラを通じて画像を与え、人間の音声での質問に答える。例えば「この中で音を発するものは?」と質問するとカメラ画像から「スピーカーがあります」、また「この部分は何と呼ばれていますか?」と特定の部位を指すと「ツイーターです」と答える様子が分かる。ぜひリンクから全編を見てほしい。
葛木氏は「GeminiのようなマルチモーダルAIをご利用いただくと、よりビジネスの可能性が広がります」と話す。