SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers X Summit 2024 セッションレポート(AD)

日本経済新聞社の最新研究事例に学ぶ、マルチモーダルAI活用の勘所

【Session3】マルチモーダル AI 実装の課題と解決策

  • X ポスト
  • このエントリーをはてなブックマークに追加

 2023年のGoogle I/Oで発表されたGeminiはGoogle DeepMindが開発したマルチモーダルな生成AIモデルだ。テキスト、画像、音声、動画など、複数の異なるデータ形式を理解して処理することができる。このGeminiの活用事例として、日本経済新聞社の日経イノベーション・ラボではマルチモーダルAIの概念検証として、政治資金収支報告書の解析や、画像からおすすめ記事を選出するなどを評価している。

  • X ポスト
  • このエントリーをはてなブックマークに追加

 本記事の内容は、講演当日である2024年11月14日時点の情報です。

複数のモダリティを統合的に処理できるマルチモーダルAIの可能性

 Googleは2023年5月のGoogle I/Oで、マルチモーダルAI「Gemini」を発表した。グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木美紀氏は「Geminiの最大の優位性として、複数のモダリティを統合して処理していることが挙げられます」と話す。多くのAIモデルはテキストや画像など特定のモダリティに特化しているが、Geminiは複数のモダリティを一元的に処理できて、よりシームレスで直感的な応答が可能となる。

グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木 美紀氏
グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木 美紀氏

 なおGeminiにはUltra、Pro、Nanoの3種類のサイズがある。Ultraは最も能力が高いモデルで、有償版のGemini Advancedで利用できる。Proは汎用的なサイズで、Google Cloudで利用できる。Nanoはモバイル向けの軽量モデルで、Androidで利用できる。

 例えばピンクと青の毛糸玉が並んで表示されている画像をGeminiに与えて「ここから何を作るかアイデアをください」と質問してみると、毛糸の色から着想を得て「(編み物の)タコを作るのはどうですか?」と回答する。また楽譜の画像をGeminiに与えて「これはどういう意味ですか」と質問すると、「8分の6小節です。強弱記号は……」と専門的な内容も含めて回答することができる。

 またGeminiはマルチモーダルだけではなく、言語モデルとしての能力も優れている。MMLU(専門知識を問う大規模言語モデルのベンチマーク)では既存の生成AIの最高スコアを更新し、人間の専門家のスコアを超えた初めてのモデルとなった。

 Google Cloudからの紹介の最後に、葛木氏は「Project Astra」のデモ動画を披露した。まだ開発段階ではあるものの、これは新しいタイプのAIアシスタントとなる。Google Pixelスマートフォンやメガネデバイスのカメラを通じて画像を与え、人間の音声での質問に答える。例えば「この中で音を発するものは?」と質問するとカメラ画像から「スピーカーがあります」、また「この部分は何と呼ばれていますか?」と特定の部位を指すと「ツイーターです」と答える様子が分かる。ぜひリンクから全編を見てほしい。

 葛木氏は「GeminiのようなマルチモーダルAIをご利用いただくと、よりビジネスの可能性が広がります」と話す。

次のページ
紙媒体の資料をマルチモーダルAIで読み解く

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers X Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

加山 恵美(カヤマ エミ)

フリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Onlineの取材・記事や、EnterpriseZine/Security Onlineキュレーターも担当しています。Webサイト:http://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山出 高士(ヤマデ タカシ)

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:グーグル・クラウド・ジャパン合同会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20506 2025/01/09 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング