米Google Cloudは、AIに最適化されたハードウェア、ソフトウェア、消費モデルによって生産性と効率を向上する「AI Hypercomputer」において、大幅な機能強化を行ったことを4月10日(現地時間)に発表した。
今回、行われた機能強化では、強力かつスケーラブルなTPUであるCloud TPU v5pが一般提供されている。Cloud TPU v5pは、最大規模でもっとも要求の厳しい生成AIモデルのトレーニングを目的に構築された次世代アクセラレータであり、1つのポッドにはCloud TPU v4ポッドの2倍以上に相当する、8960個の同時実行されるチップが含まれる。チップごとに2倍超のFLOPSと、3倍超の高帯域幅メモリも提供されるほか、スライスサイズが12倍増加した場合、スループットは11.97倍となる。
あわせて、大規模なTPUクラスタ全体でGoogle Kubernetes Engine(GKE)上で最大のAIモデルのトレーニングと提供を可能にすべく、GKEによるCloud TPU v5pのサポート、およびGKE上でのTPUマルチホストサービスのサポートが一般提供されている。GKE上でのTPUマルチホスト使用によって、複数のホストにデプロイされたモデルサーバグループを1つの論理ユニットとして管理できるようになり、一元的な管理および監視が可能になる。
また、A3 VMファミリへのA3 Megaの追加によって、NVIDIA GPU機能を拡張するとともに、NVIDIA Blackwell GPUの導入も行われる。
さらに、AIのトレーニング、微調整、推論パフォーマンス向上を目的として、Cloud Storage FUSEにおけるキャッシュ機能が一般提供され、トレーニングスループットが2.9倍向上するとともに、独自の基盤モデルの1つのパフォーマンスが2.2倍向上した。また、AI/機械学習およびHPCワークロード向けに最適化された高性能並列ファイルシステムであるParallelstoreにもキャッシュが追加され、トレーニング速度が最大3.9倍高速化したほか、トレーニングスループットが最大3.7倍向上している。さらにFilestoreでは、ネットワークファイルシステムベースのアプローチによって、クラスタ内のすべてのGPUとTPUが同じデータに同時にアクセス可能となり、トレーニング時間が最大56%短縮された。
ほかにも、AI推論/サービングワークロード向けに最適化された、次世代ブロックストレージサービスであるHyperdisk MLが、プレビュー導入されている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です