米Googleは、高性能AIモデル「Gemini」を12月7日に発表した。
Geminiは、マルチモーダルとしてゼロから構築され、テキスト、画像、音声、動画、コードといったさまざまな種類の情報を一般化してシームレスに理解し、操作するとともに、組み合わせることができる。
データセンタからモバイルデバイスまで、あらゆる場所で動作が可能であり、最初のバージョンであるGemini 1.0は、非常に複雑なタスクに対応する高性能かつ最大のモデル「Gemini Ultra」、幅広いタスクに対応する最良のモデル「Gemini Pro」、デバイス上のタスクにおいてもっとも効率的なモデル「Gemini Nano」の、3つのサイズに最適化している。
Gemini Ultraは、数学、物理学、歴史、法律、医学、倫理といった57の科目を組み合わせて知識と問題解決能力をテストする大規模マルチタスク言語理解(MMLU)にて90.00%のスコアを獲得し、人間の専門家を上回るパフォーマンスを示した。
ネイティブでマルチモーダルに対応することが可能になるよう、最初から異なるデータで事前学習をさせたほか、追加のマルチモーダルデータを使用してファインチューンし、その有効性をさらに洗練させているので、あらゆる種類の入力をゼロからシームレスに理解し、推論できるようになっている。
Gemini 1.0のマルチモーダルにも対応する高度な推論性能は、複雑な文字情報や視覚情報を理解するのに役立つため、膨大な量のデータの中から識別するのが難しい知識を発見する能力に優れる。テキスト、画像、音声などを同時に認識して理解することが可能になるようトレーニングされているので、ニュアンスを含んだ情報をより理解し、複雑なトピックに関する質問にも答えられ、とりわけ数学や物理学の推論の説明に威力を発揮する。
そのほか、Python、Java、C++、Goといった世界で広く利用されているプログラミング言語の理解、説明、コード生成にも対応している。
Googleは、GeminiによってBardが理解と要約、推論、ブレインストーミング、文章編集、計画の立案などをできるようにする(英語版のみ)ほか、スマートフォン「Google Pixel 8 Pro」にはGemini Nanoが導入され、録音アプリの要約機能に用いられるとともに、Gboardのスマートリプライにも展開され、2024年にはより多くのメッセージングアプリに対応する。
さらに今後は、Google検索や広告、Chrome、Duet AIといったGoogleの主要な製品やサービスでも、Geminiを利用可能にするという。
なお、12月13日(現地時間)からは、Google AI StudioやVertex AIのGemini APIを通じてGemini Proにアクセスできるようになるほか、Android開発者はAICoreを通じてGemini nanoを使用した開発も可能になる。また、一部の顧客や開発者、パートナー、セキュリティの専門家などにGemini Ultraが近日中に公開される。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です