米Google Cloudは、同社の運営する「Google Kubernetes Engine(GKE)」が、世界最大数となる15000ノードのクラスタをサポートし、要求の厳しいトレーニングワークロードの処理が可能になるとともに、現在はさらに大規模なモデルを想定して、65000ノードを有するクラスタのサポートに取り組んでいることを11月14日(現地時間)に発表した。
65000ノードにまでスケーリングできる能力は、世界でもっともリソースを消費するAIワークロードに求められる機能であり、アクセラレータの革新的なコンピューティング能力との組み合わせによって、モデルのトレーニング時間短縮、パラメータの数兆単位へのスケーリングなどが可能になる。それぞれのノードには複数のアクセラレータを備えているので、250000を超えるアクセラレータを1つのクラスタ上で管理できる。
65000ノードをサポートするGKEなら、5つのジョブを単一のクラスタで実行可能であり、ジョブの1つひとつがGoogle Cloudによって過去に達成された、世界最大のLLM向けトレーニングジョブの規模に匹敵するという。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です