米Google Cloudは、Google史上もっとも高性能なAIモデルである「Gemini 2.5」の機能について、公式ブログの4月10日(現地時間)付け投稿にて紹介している。
Gemini 2.5はThinkingモデルであり、回答する前に推論ができるのでパフォーマンスが劇的に向上している。また、Gemini 2.5ファミリの1つであるGemini 2.5 Proは、Vertex AIにてパブリックプレビューされており、高度な推論を必要とするコーディングやタスクにおいて世界最高水準のモデルの1つといえる。
Gemini 2.5 Proは、100万トークンのコンテキストウィンドウとの組み合わせによって、詳細なデータ分析の実行、法的契約書や医療記録といった情報密度の高いドキュメントからの、重要な分析情報の抽出、コードベース全体を理解した上での複雑なコーディングタスクの処理などが可能となっている。
企業が特定のニーズに合わせたカスタマイズのために、教師ありチューニング(固有データの特殊化)やコンテキストキャッシュ保存(長いコンテキストの効率的な処理)といったVertex AIの機能を活用して、パフォーマンスを向上させて費用を削減できる機能も、近日中にGemini 2.5モデル向けとしてリリースが予定される。
Gemini 2.5 Proは、複雑な課題に対して最高の品質を目指している一方で、多くのエンタープライズアプリケーションでは速度、低レイテンシ、費用効率が優先されていることから、Vertex AIにおけるGemini 2.5 Flashの提供も予定されている。同モデルは、低レイテンシと費用削減を考慮して最適化されており、カスタマーサービスやリアルタイムの情報処理といった大規模なシナリオ向けに、バランスの取れた優れた品質を提供する。
動的で制御可能な推論も特徴の1つであり、クエリの複雑さに基づいて処理時間(思考予算)を自動調整するため、単純なリクエストには迅速に回答できる。また、思考予算を細かく制御可能なので、特定のニーズに合わせた速度、精度、費用バランスの調整にも対応している。
さらにGoogle Cloudでは、Vertex AI Model Optimizerの試験運用版を導入することで、品質と費用の望ましいバランスに基づいて、各プロンプトに対する回答を自動生成できるようにしたほか、特定の場所での処理を必要としないワークロードでは、Vertex AIグローバルエンドポイントが複数のリージョンを横断して、Geminiモデルの容量を考慮したルーティングを提供し、トラフィックのピーク時やリージョンサービスの変動時でもアプリケーションの応答性を維持する。
あわせて、Gemini 2.5 Proの高度なマルチモーダル推論を活用することで、洗練された現実的なエージェントワークフローの実現が可能になり、マップやフローチャートといった視覚的なコンテキストを解釈して、テキストの理解を統合し、Web検索などの基本的なアクションを実行して、多様な情報を統合することによって、エージェントが複雑な入力に対して有意義なやり取りをできるようにした。
また、エージェントがストリーミングの音声、動画、テキストを低レイテンシで処理可能で、人間のような会話、ライブ会議への参加、リアルタイムの状況のモニタリング(タスクの途中での音声指示の理解など)を可能にする、Geminiモデル向けのLive APIが開発されている。
Live APIはほかにも、30分以上に及ぶ長時間セッションのサポート、多言語の音声出力、分析用のタイムスタンプ付き文字起こし、セッション内での動的な指示の更新、検索、コード実行、関数呼び出しなどの強力なツールインテグレーションといった機能を備えており、Gemini 2.5 Proなどのモデルをインタラクティブ性の高いアプリケーションで活用できる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です