AWSは7月16日、Amazon EKSで最大10万台のノードをサポートするクラスターの提供を発表した。これにより、最先端のモデルトレーニング、ファインチューニングなどの超大規模人工知能及び機械学習ワークロードが可能になる。
今回の機能強化により、単一のKubernetesクラスターで最大160万個のAWS Trainiumチップまたは80万個のNVIDIA GPU構成を実現。
また、一連のアーキテクチャ改善とさまざまな最適化を行い、Kubernetesに準拠しながら大幅なパフォーマンス向上を達成した。
なお、詳細な設計や検証の過程がAWSのブログで解説されている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です