Mistral AIは、6月23日、新しいOCRモデル「Mistral OCR 4」をリリースした。
Mistral OCR 4は、日本語を含む170言語をサポートしたOCRモデル。テキストの抽出だけでなく、バウンディングボックスやブロックの分類(タイトル、表、数式、署名など)も可能だ。
完全セルフホスト型のデプロイメント向けに単一のコンテナで実行できるほか、Mistral Search Toolkit(パブリックプレビュー版)と統合し、エンタープライズ検索、RAG、ドメイン固有の検索パイプラインの取り込みコンポーネントとして機能する。
Mistral OCR 4の性能は高く、ベンチマークOlmOCRBenchでは総合スコア85.20という高い評価を獲得している。
複雑な多言語文書を扱うことに向いており、Search Toolkitを使用すると、OCR 4の出力を直接検索パイプラインに取り込むことが可能。エージェントがフォームへの入力やコンプライアンスチェックなどのタスクを完了するための要素を提供できるのが特徴だ。
ただし、Mistral OCR 4は文書理解モデルであり、意思決定を行うものではないため、医療診断や法的助言などの高い安全性が求められるシステムのほか、リアルタイム処理やレイテンシが重要な処理、または文書以外の入力には使用しないよう注意が必要。
Mistral OCR 4はMistral Studio、Amazon SageMaker、Microsoft Foundryを通じてAPIで利用可能。詳細はニュースリリースから確認できる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
