Google Cloudは12月12日、AIおよび高性能コンピューティング(HPC)ワークロード向けのクラスター管理サービス「Cluster Director」の一般提供を開始したことを発表した。同時に、Google Kubernetes Engine(GKE)上のSlurm向けCluster Directorサポートがプレビューで提供開始された。
AIトレーニングとハイパフォーマンスコンピューティング(HPC)ワークロードを支えるインフラストラクチャの複雑さは多くの開発者や研究者にとって課題である。本リリースはこれらの課題解決に応えるものとなっている。
Cluster Directorは、現代のスーパーコンピューティングの厳しい要求を満たすように設計されたマネージドインフラストラクチャサービス。従来、クラスターの立ち上げには数週間の計画やTerraformの調整といった複雑な作業が必要だが、Cluster DirectorはDay0セットアップを実現する。
Cluster Directorは幅広いハードウェアシステムをサポートし、NVIDIA GB200および GB300 GPUを搭載したGoogle Cloud のA4XおよびA4X Max VM、コスト効率の高いログインノードとデバッグパーティション用のN2 VMなどの、大規模なAIシステムをカバーしている。
また、アクセラレータへのデータ供給を維持するため、Cluster Directorは選択可能なパフォーマンスティアを持つGoogle Cloud Managed Lustreを完全サポートし、高スループットの並列ストレージをコンピュートノードに直接接続できる。さらに、ピーク時のスケーリングのために、トポロジー対応スケジューリングとコンパクト配置ポリシーを実装している。
Cluster Directorの利用に追加料金はなく、基盤となるGoogle Cloudリソース(コンピュート、ストレージ、ネットワーキング)のみが課金対象となる。詳細はブログポストおよびドキュメントから確認できる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
