米Microsoftは、小型言語モデル(Small Language Model:SLM)の「Phi」ファミリーに、新たに「Phi-4-multimodal」と「Phi-4-mini」を追加したことを、2月26日(現地時間)に発表した。どちらも、Azure AI Foundry、HuggingFace、NVIDIA API Catalogにて利用できる。
Phi-4-multimodalは、5.6億のパラメータを持つマルチモーダル言語モデルで、音声、画像、テキストを同時に処理可能となっており、単一のアーキテクチャで異なる入力モードを処理することによって、より自然で直感的な人間と機械のインタラクションを実現する。
おもな特徴は以下の通り。
- 統合処理:音声認識、画像理解、テキスト処理をシームレスに統合
- 効率的な推論:オンデバイスでの実行に最適化され、計算負荷を削減
- 競争力のある性能:既存の大規模マルチモーダルAIに匹敵する処理能力
数学、科学的推論や視覚データ処理といった幅広い用途に対応し、とりわけエッジデバイスやモバイル環境でのAI活用に適している。
Phi-4-miniは、3.8億パラメータを持つ小型言語モデルで、特にテキストベースのタスクに強みを持つ。計算コストを抑えつつ、長文処理、プログラミング支援、数学的推論、関数呼び出しといった複雑な処理を高精度で実行できる。
おもな特徴は以下の通り。
- 長文対応:最大128000トークンの処理が可能で、文書理解やコード解析にも適用できる
- 高精度な推論:大規模言語モデルと比較しても優れたパフォーマンス
- エッジデバイス対応:ネットワーク接続が不安定な環境でも動作し、セキュアなアプリケーションに適応
スマートデバイス上でのリアルタイム翻訳や音声アシスタントの精度向上、車載システムにおける音声ナビゲーションや運転支援AIの性能向上、金融サービスにおける金融レポートの自動生成、多言語翻訳、複雑な計算の自動化といった、多彩なシナリオでの活用が見込まれる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です