米Google Cloudは、MultiKueue、Google Kubernetes Engine(GKE)、Dynamic Workload Scheduler(DWS)を活用して、グローバルなジョブの実行を効率化するとともに、処理速度を最適化して手動でのノード管理を不要にする方法について、公式ブログの2月15日(現地時間)付の投稿で紹介している。
Google Cloudでは、さまざまなサービスを横断してTPUやGPUといったアクセラレータを同時にスケジュールすることによって、AIや機械学習リソースのアクセスと費用を最適化し、トレーニングジョブやファインチューニングジョブのパフォーマンスを向上させるDWSを導入することで、とりわけGKEクラスタ内でのGPUリソースのアクセス方法と使用方法を変革した。
さらに、DWSではGKEとクラウドネイティブなジョブスケジューラであるKueueの簡単かつシンプルな統合も可能であり、特定のリージョンにおいて特定のGKEクラスタが、可能な限り迅速にGPUにアクセスできるようになっている。
さらに、DWSによってワークロードに必要なリソースが提供され次第、ロケーションを問わず利用可能なリージョンに、ワークロードを直ちにデプロイしたい場合は、Kueueの機能の1つであるMutiKueue、GKE、DWSを使用することで、複数のリージョンでアクセラレータを待機させられる。DWSは、リソースが利用できるようになり次第、そのリソースを最適なGKEクラスタに自動的にプロビジョニングし、ワークロードをグローバルキューに送信すると、MultiKueueが利用可能なGPUリソースがあるリージョンでそれを実行し、グローバルリソース使用量の最適化、費用削減、処理の高速化を実現する。
MultiKueueは、異なるリージョンにある複数のGKEクラスタにワークロードを分散でき、利用可能なリソースを持つクラスタを特定することによって、ジョブを最適なロケーションに割り当てるプロセスが簡素化される。
なお、GoogleのマネージドKubernetesサービスであり、コンテナインフラストラクチャのプロビジョニング、スケーリング、セキュリティ、メンテナンスを自動処理するGKE AutopilotでのDWSの利用は、GKE Autopilot 1.30.3でサポートされている。
そのほか、Local QueueやWorkload Priority Classを使用すれば、チーム管理といった高度なKueue機能の活用が可能になり、MultiKueue、GKE、DWSの構成をさらに強化できる。また、GrafanaやCloud Monitoringのダッシュボードを作成して、PodMonitoringリソース経由でGoogle Managed Service for Prometheusによって自動的に処理されるKueue指標を利用することで、有益なインサイトを得られる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です