紙媒体の資料をマルチモーダルAIで読み解く
ここからは日本経済新聞社の研究開発部署「日経イノベーション・ラボ」による、Geminiを用いた技術検証結果に移ろう。本稿では同部署で実施した生成AIの概念検証から、政治資金収支報告書からの情報抽出と画像からのニュース記事推薦の2例について紹介する。
なお発表した上席研究員 石原祥太郎氏はGoogle Cloud Champion Innovator(AI/ML)でもあり、近著に『事例でわかるMLOps 機械学習の成果をスケールさせる処方箋』(講談社)がある。同部署でPoCを実施する理由として「日経テレコンや日経電子版など代表的なプロダクトが存在するなか、次なる種を開拓していくことが新しい時代のニュースメディアとして大切だと捉えています」と話す。
まず1例目、政治資金収支報告書からの情報抽出だ。政治資金収支報告書とは政治団体の1年間の収支を記した報告書で、一般的には総務省や各政党のサイトで掲載されており、基本的には紙媒体の書類をスキャンした画像となる。フォーマットはバラバラで、手書きや修正印がついた修正もある。
実験では画像を読み込み、マルチモーダルAIで構造認識して表形式で出力する。なかにはマルチモーダルAIにかける前に、OCRでテキスト抽出したものも比較対象とした。これらの出力結果を、モデルごとに比較対象となる表構造との類似度で評価した。
使用したモデルはGemini(Google DeepMind)、Claude(Anthropic)、GPT-4(OpenAI)など。2024年5月に論文に掲載した実験結果のなかでは、Claude 3 OpusにOCRを組み合わせたものが最も類似度が高くなった。ひと手間かけることになるが、現時点ではOCRをかけてからAIで処理するほうが精度が高くなるようだ。
またこの抽出結果の活用として、各種政治団体の収入グラフネットワークを作成した。それぞれの団体にどのようなルートで、どのような収入(事業収入、交付金、寄付、パーティー関連)があったのかを可視化できる。これまで人間が分析していたお金の流れをこうして可視化することで、「ジャーナリズムの1つの意義である監視といったところに活用できるのでは」と石原氏は言う。
詳しい手法や評価結果は2024年5月に発表した論文「マルチモーダルな深層学習手法を用いた政治資金収支報告書の判読の試み」(2024年度日本選挙学会総会・研究会)に掲載されている。