本記事の内容は、講演当日である2024年11月14日時点の情報です。
複数のモダリティを統合的に処理できるマルチモーダルAIの可能性
Googleは2023年5月のGoogle I/Oで、マルチモーダルAI「Gemini」を発表した。グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木美紀氏は「Geminiの最大の優位性として、複数のモダリティを統合して処理していることが挙げられます」と話す。多くのAIモデルはテキストや画像など特定のモダリティに特化しているが、Geminiは複数のモダリティを一元的に処理できて、よりシームレスで直感的な応答が可能となる。
なおGeminiにはUltra、Pro、Nanoの3種類のサイズがある。Ultraは最も能力が高いモデルで、有償版のGemini Advancedで利用できる。Proは汎用的なサイズで、Google Cloudで利用できる。Nanoはモバイル向けの軽量モデルで、Androidで利用できる。
例えばピンクと青の毛糸玉が並んで表示されている画像をGeminiに与えて「ここから何を作るかアイデアをください」と質問してみると、毛糸の色から着想を得て「(編み物の)タコを作るのはどうですか?」と回答する。また楽譜の画像をGeminiに与えて「これはどういう意味ですか」と質問すると、「8分の6小節です。強弱記号は……」と専門的な内容も含めて回答することができる。
またGeminiはマルチモーダルだけではなく、言語モデルとしての能力も優れている。MMLU(専門知識を問う大規模言語モデルのベンチマーク)では既存の生成AIの最高スコアを更新し、人間の専門家のスコアを超えた初めてのモデルとなった。
Google Cloudからの紹介の最後に、葛木氏は「Project Astra」のデモ動画を披露した。まだ開発段階ではあるものの、これは新しいタイプのAIアシスタントとなる。Google Pixelスマートフォンやメガネデバイスのカメラを通じて画像を与え、人間の音声での質問に答える。例えば「この中で音を発するものは?」と質問するとカメラ画像から「スピーカーがあります」、また「この部分は何と呼ばれていますか?」と特定の部位を指すと「ツイーターです」と答える様子が分かる。ぜひリンクから全編を見てほしい。
葛木氏は「GeminiのようなマルチモーダルAIをご利用いただくと、よりビジネスの可能性が広がります」と話す。
紙媒体の資料をマルチモーダルAIで読み解く
ここからは日本経済新聞社の研究開発部署「日経イノベーション・ラボ」による、Geminiを用いた技術検証結果に移ろう。本稿では同部署で実施した生成AIの概念検証から、政治資金収支報告書からの情報抽出と画像からのニュース記事推薦の2例について紹介する。
なお発表した上席研究員 石原祥太郎氏はGoogle Cloud Champion Innovator(AI/ML)でもあり、近著に『事例でわかるMLOps 機械学習の成果をスケールさせる処方箋』(講談社)がある。同部署でPoCを実施する理由として「日経テレコンや日経電子版など代表的なプロダクトが存在するなか、次なる種を開拓していくことが新しい時代のニュースメディアとして大切だと捉えています」と話す。
まず1例目、政治資金収支報告書からの情報抽出だ。政治資金収支報告書とは政治団体の1年間の収支を記した報告書で、一般的には総務省や各政党のサイトで掲載されており、基本的には紙媒体の書類をスキャンした画像となる。フォーマットはバラバラで、手書きや修正印がついた修正もある。
実験では画像を読み込み、マルチモーダルAIで構造認識して表形式で出力する。なかにはマルチモーダルAIにかける前に、OCRでテキスト抽出したものも比較対象とした。これらの出力結果を、モデルごとに比較対象となる表構造との類似度で評価した。
使用したモデルはGemini(Google DeepMind)、Claude(Anthropic)、GPT-4(OpenAI)など。2024年5月に論文に掲載した実験結果のなかでは、Claude 3 OpusにOCRを組み合わせたものが最も類似度が高くなった。ひと手間かけることになるが、現時点ではOCRをかけてからAIで処理するほうが精度が高くなるようだ。
またこの抽出結果の活用として、各種政治団体の収入グラフネットワークを作成した。それぞれの団体にどのようなルートで、どのような収入(事業収入、交付金、寄付、パーティー関連)があったのかを可視化できる。これまで人間が分析していたお金の流れをこうして可視化することで、「ジャーナリズムの1つの意義である監視といったところに活用できるのでは」と石原氏は言う。
詳しい手法や評価結果は2024年5月に発表した論文「マルチモーダルな深層学習手法を用いた政治資金収支報告書の判読の試み」(2024年度日本選挙学会総会・研究会)に掲載されている。
思いがけない記事を身近な写真からレコメンド
2例目はスマートフォンの画像からニュース記事を推薦するものだ。一般的に、ニュースサイトでおすすめされる記事は過去の閲覧履歴や、ユーザーが登録した興味ある分野から選出される。新規登録した読者にとっては「何から読み始めたらいいか分からない」、閲覧傾向に基づく推薦でもあまり刺さるものがないと、閲覧習慣が定着せずにサービス離脱も起きてしまう。
そこで読者にとって慣れ親しんだ分野の記事ばかりではなく、新たな興味関心の発見につながる記事を推薦する方法はないだろうかと石原氏らは考えていた。ニュースサイトには多種多様な記事であふれている。身の回りを見渡したとき、そこにあるものと関連していて、興味を引くような記事を提示できないかという模索からつながった実験だ。
ここでの実験は、まず画像を入力し、画像内から物体名を視覚言語モデル(Gemini 1.0 Pro Vision)から抽出し、日経電子版にあるニュース記事を全文検索システム(Elasticsearch)で検索して推薦する。
インプットとなる画像は身近にあるものということで、オフィス、寝室、パン屋、キッチン、クローゼットの5カテゴリのデータセットを使う。実験の参加者はそれぞれのカテゴリから1枚選び、その画像から推薦された記事を評価する。
評価観点は関連性(提示された物体名やニュース記事が妥当だと感じる)、新規性(提示された物体名やニュース記事を知らなかった)、意外性(提示された物体名やニュース記事をシステムのおかげで発見できたと感じる)、これらを満たすかどうかだ。3つの評価観点の全てを満たせばセレンディピティがあると判断する。
例えば以下の画像だとデスク、ベッド、ランプなどの物体が抽出され、これらに対して5件のニュース記事「中小型株、地味にスゴい コメ兵やフランスベッド」「乳幼児用バウンサーの安全基準改正 米国で窒息死多発」「静岡のSUS、仮眠用個室生む2段ベッド JR東と開発」などが選出された。これらを実験参加者が関連性、新規性、意外性を判断するという地道な実験でもある。
なお上記で1本目に選出された「中小型株、地味にスゴい コメ兵やフランスベッド」は日経ヴェリタスの記事で、中小型株の動向について深い分析でまとめられたものだ。石原氏は「なかなか普段のニュースを見るなかでは気づきにくいものなので、そうしたものをお届けできたら魅力的なアプローチになるかなと考えているところです」と話す。
今回の実験では推薦したなかからセレンディピティがあると評価されたものは全体の12%ほど。そのため石原氏は「9枚の記事を提供すると1枚くらいはいい記事が提供できているのかなという比率で、これが大きいか小さいかはこれから議論していくところです」と話す。
詳しい手法や評価結果は2024年11月に発表した論文「ニュースを身近に:日常風景からのニュース推薦」(第210回ヒューマンコンピュータインタラクション・第84回ユビキタスコンピューティング合同研究発表会)に掲載されている。
マルチモーダルAIや生成AIとなるとRAG(検索拡張生成)の話題になりがちだが、石原氏は「マルチモーダルAIには、RAG以外にも泥臭いような業務を改善する余地があるのではないかと考えています。新聞社の研究開発部門として、いろんなことを試していくつもりです。あくまで目的は概念検証ですので、できるだけ実装には時間をかけずに分析や評価に時間を割きたいと考えています」と話す。