SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

Google Cloud、AIに最適化された「Cloud TPU v5e」をプレビュー提供。9月には「A3 VM」を一般提供

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 米Google Cloudは、Google Kubernetes Engine(GKE)やVertex AI、Pytorch、JAX、TensorFlowといった主要なフレームワークが統合された環境を、使い慣れたインターフェイスで使い始められる、AIに最適化された「Cloud TPU v5e」のプレビュー提供を8月30日(現地時間)に開始した。また、GPUスーパーコンピュータとして提供されるNVIDIA H100 GPUをベースに、大規模なAIモデルを強化するための「A3 VM」を、9月から一般提供する。

 Cloud TPU v5eは、中規模および大規模なトレーニングと推論に必要な、コスト効率とパフォーマンスを実現することを目的に構築され、Cloud TPU v4と比較してLLMおよび生成AIモデルについて、1米ドルあたり最大2倍のトレーニングパフォーマンスと、1米ドルあたり最大2.5倍の推論パフォーマンスを実現している。

 パフォーマンス、柔軟性、効率のバランスが取れており、最大256個のチップを400TB/s以上の総帯域幅と、100petaOps INT8で相互接続できる。また、単一スライス内の1~250以上のチップに至る、8つの異なる仮想マシン構成をサポートするため、幅広いLLMおよび生成AIモデルサイズに対応する、適切な構成の選択が可能となっている。

 Gridspaceが行ったベンチマークでは、Cloud TPU v5eでAIモデルのトレーニングおよび実行を行うと、AIモデルの速度が5倍向上したという。また、推論メトリクスの規模も大幅に向上し、社内の音声テキスト変換および感情予測モデルでは、リアルタイムの1秒で1000秒分を処理できるようになり、6倍の速度向上がみられた。

 さらに、JAX、PyTorch、TensorFlowといった主要なAIフレームワークが組み込まれているほか、Hugging FaceのTransformersやAccelerateをはじめ、PyTorch LightningやRayといった人気のオープンソースツールをサポートしており、次期PyTorch/XLA 2.1リリースでPytorchのサポートをさらに強化することが発表されている。同リリースでは、Cloud TPU v5eのサポートとともに、大規模なモデルをトレーニングするための、モデルとデータの並列処理などの新機能が含まれる。

 そのほか、トレーニングジョブのスケールアップを容易にすべく、マルチスライステクノロジをプレビュー導入することによって、ユーザーは物理TPUポッドの境界を超えて、AIモデルを最大数万のCloud TPU v5eまたはTPU v4チップまで、簡単にスケール可能になった。マルチスライスを使用することで、開発者は単一ポッド内のチップ間相互接続(ICI)経由、またはデータセンタネットワーク(DCN)上の複数のポッドにわたって、ワークロードを最大数万チップまで拡張できる。なお、マルチスライス技術は、Google Cloudにおける最先端のPaLMモデルの作成に用いられた。

 9月に一般提供が開始されるA3 VMは、1兆パラメータモデルに対応するトランスフォーマエンジンを備えたNVIDIAのH100 TensorコアGPUによって強化され、特に要求の厳しい生成AIワークロードおよびLLMをトレーニングし、提供することを目的に構築されている。NVIDIA GPUとGoogle Cloudによる最先端のインフラストラクチャテクノロジを組み合わせることで、大規模なスケールとパフォーマンスが提供され、前世代と比較して3倍のトレーニング速度と10倍のネットワーク帯域幅によって、スーパーコンピューティング機能が大幅に進歩する。また、大規模な運用にも対応し、ユーザーはモデルを数万のNVIDIA H100 GPUに拡張できる。

 2基の第4世代Intel Xeonスケーラブルプロセッサ、VMあたり8基のNVIDIA H100 GPU、2TBのホストメモリを搭載しており、第4世代NVIDIA NVLinkテクノロジを通じて8基のGPU間で毎秒3.6TBのバイセクション帯域幅を実現する。ネットワーク帯域幅の向上は、TitaniumネットワークアダプタとNVIDIA Collective Communications Library(NCCL)の最適化によって実現されており、最先端のAIモデル構築を目指すAIイノベータや企業にとって、大きな後押しとなる。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/18270 2023/08/31 18:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング