Googleは1月27日(現地時間)、大規模AIモデル「Gemini 3 Flash」に新たなビジョン機能「Agentic Vision」を搭載したことを発表した。従来のAIモデルが画像を一度だけ静的に分析していたのに対し、Agentic Visionは段階的な観察や画像のズーム、回転、注釈付与などをPythonコードの実行と組み合わせて行う。
今回発表された新機能により、画像中の細かい情報を見逃しにくく、ビルの設計図や数値解析、画像への注釈追加など多様な用途で精度が向上する。実際に、建築図面の解析を行った場合は精度が5%向上したという。Agentic VisionはGoogle AI StudioやVertex AIのGemini APIで利用できるほか、今後はさらに多様なモデルサイズや機能への展開も予定されている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
