AI insideは、日本語のドキュメント処理に特化した独自開発のLLM「PolySphere-2」を「PolySphere-3」へとメジャーアップデートして、データ構造化の精度において世界最高性能を達成したことを、6月4日に発表した。
今回のアップデートは、経済産業省と新エネルギー・産業技術総合開発機構が実施する、日本国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)に採択された研究テーマ「生成AI基盤による非定型帳票の革新と自律促進」の成果に基づいて行われている。
同社は、GENIAC第2サイクルにおける開発を通じて、データ構造化の精度において世界最高性能のLLMであるPolySphere-3と、軽量で処理速度が速いPolySphere-3 Liteの、2つのモデルを構築した。
PolySphere-3では、50種類の帳票に対して平均95.1%の読取精度を記録し、他社LLMを上回る成果を示しており、モデルを軽量化したPolySphere-3 Liteは、従来のPolySphere-2と同等の読取精度を維持しつつ、処理速度を向上している。また、モデルが自ら帳票を学習・最適化して、継続的な精度向上を実現する「自律蒸留」の仕組みを構築した。

さらに、データ入力業務を自動化するAIエージェントであるDX Suiteの項目抽出機能にPolySphere-3を実装して、非定型帳票における読取精度の向上を図ったところ、処理される帳票の上位9割で読取精度が95%超に達し、汎用的にあらゆる帳票の高精度な処理が実現している。デフォルトでは精度重視のPolySphere-3を適用し、処理速度を重視するユーザー向けには軽量モデルのPolySphere-3 Liteへの切り替えも可能なほか、自律蒸留によってOCR処理における継続的な精度向上が期待できる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です