Microsoftは、3月4日、視覚推論モデル「Phi-4-Reasoning-Vision-15B」がMicrosoft FoundryとHugging Faceで利用可能になったことを発表した。
これは、推論に重点を置いたファミリーのPhi-4ファミリーの小規模言語モデル(SLM)。高性能な視覚的知覚と、選択的かつタスクを意識した推論を組み合わせることで、高速かつ効率的で深い推論を実現する。
Phi-4-Reasoning-Vision-15Bは視覚推論に最適化されており、図表ベースの数学、文書、グラフ、表の理解、一般的な画像チャットと質問への回答などに活用できる。代表的なシナリオとしては、視覚入力を用いた科学的・数学的推論、そしてグラフィカルユーザーインターフェース上で直接操作するコンピュータ利用エージェント(CUA)が上げられる。
詳細はブログポストから確認できる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
