米Googleは、同社が開発・公開しているネイティブマルチモーダルモデルである「Gemini 1.5 Pro」よりも軽量ながら、大規模なサービスに高速かつ効率的に対応できるように設計されたモデル「Gemini 1.5 Flash」を、5月15日(現地時間)に発表した。
Gemini 1.5 Pro、Gemini 1.5 Flashともに、Google AI StudioとVertex AIで100万トークンのコンテキストウィンドウを備えたパブリックプレビューとして利用可能であり、Gemini 1.5 Proは200万トークンのコンテキストウィンドウでも、APIを使用する開発者およびGoogle Cloudユーザー(待機リスト順)に提供される。
今回、発表されたGemini 1.5 Flashは、APIで提供される中ではもっとも高速なGeminiモデルで、大規模かつ高頻度のタスク向けに最適化されており、コスト効率が高く、画期的なロングコンテキストウィンドウを備えている。Gemini 1.5 Proよりも軽量ながら、膨大な量の情報にわたるマルチモーダル推論の能力が高いほか、要約、チャットアプリケーション、画像や動画のキャプション、長い文書や表からのデータ抽出などに優れる。
Gemini 1.5 Proは、大幅な改善によってコンテキストウィンドウを200万トークンに拡張するとともに、データとアルゴリズムの進歩によってコード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解を強化した。また、役割、形式、スタイルなどといった製品レベルの動作を指定するものなど、より複雑で微妙な指示に従えるようになっている。さらに、Gemini APIとGoogle AI Studioへの音声理解の追加によって、Gemini 1.5 ProはGoogle AI Studioにアップロードされた動画の画像と音声の理解が可能になった。
そのほか、Gemini Nanoではテキスト入力だけでなく、新たに画像の入力にも対応し、視覚、聴覚、話し言葉を通じて、人間と同じように世界を理解できるようになる。
あわせて、責任あるAIを開発するための次世代オープンモデルであるGemma 2も発表された。Gemma 2は、画期的なパフォーマンスと効率を実現するために設計された新たなアーキテクチャを備えており、新たなサイズで提供される。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です