AI/MLの機能の集合体としての「Document AI」
ではいよいよ「Document AI」の仕組みを分解して見ていこう。
最もシンプルな機能となるのがテキストとレイアウトの抽出で、これのモデルにはDocument OCRがある。画像やPDF、手書きであってもテキスト情報を抽出することができる。続いて構造化されたフォームからキーとバリューのペアを抽出する学習済みモデルにはForm Parserがある。請求書や経費など一般的なフォームから構造を理解する。チェックボックスや表形式のコンテンツにも対応している。
こうした事前学習済みのモデルはあるものの、自社ビジネスでは十分な精度が出せない場合もある。その場合は追加学習することで精度を高めることができる。追加学習は事前学習済みのモデルをベースとして、最小限の学習データでフィールドや言語を追加して「転移学習」することになる。モデルをチューニングするようなイメージだ。そうしてユーザーは追加学習されたモデルを利用可能となる。
追加学習で対応できず、一からモデルを作るならDocument AI Workbenchという機能もある。これまで自社専用のカスタムモデルを作るのはデータサイエンティストや専門家の仕事だったが、これを使えばGUIで比較的簡単に作成できてしまう。
意味のあるテキストを抽出したら、あとは蓄積し、検索可能な形で管理していく必要がある。そのレポジトリとなるのがDocument AI Warehouse。これは文書に特化したストレージサービスとイメージしていいだろう。
ただし単なるストレージサービスではない。Googleの文書のセマンティックサーチ技術が盛り込まれており、検索性能を高めている。鍵となるのがKnowledge Graphで、データを実世界のエンティティと関係性に変換する。例えば「翔泳社」という文字列で検索をかけたとき、Knowledge Graphでは、会社、組織、所在地など実世界の実態に合わせて構造的に情報を保存している。これにより関係性を加味して、より適切な検索結果を返すことができる。
このようにDocument AIの機能を分解してみると、このサービスが複数のAI/MLの機能の集合体であることがイメージできるのではないだろうか。最初の読み込みはOCRやParser、追加学習はAutoML、変換したデータはDocument AI Warehouseに蓄積され、Knowledge Graphでより適切な検索結果を返すことができる。「Document AI」をSaaSのサービスと考えるなら、複数PaaSを組み合わせて提供されていることになる。
同 下田倫大氏は「皆さんもPaaSレイヤーのものを組み合わせることでDocument AIのようにビジネスユーザーが使うサービスを作ることが可能です」と話す。なお補足として、図で示したPaaSは似た機能を持つものを挙げており、Document AIを構成するものと全く同じではないことを念頭においてもらいたい。