米Datadogは、データプラットフォームチームやデータエンジニアによる、データパイプラインのあらゆる場所での問題のあるSparkやDatabricksのジョブを検出して、失敗したジョブや長時間稼働しているジョブを迅速に修正し、過剰にプロビジョニングされたコンピューティングリソースの最適化によるコスト削減を可能にする、「Data Jobs Monitoring」の一般提供を6月25日に開始した。
Data Jobs Monitoringは、最適化と信頼性向上が必要な特定のジョブを即座に表示するほか、チームはジョブの実行トレースをドリルダウンできるため、ジョブのテレメトリをクラウドインフラストラクチャに関連付けて、迅速にデバッグすることが可能になる。
Data Jobs Monitoringによって、以下のことが実現する。
- ジョブの失敗やレイテンシの急増を検出:ジョブが失敗したり、自動的に検出されたベースラインを越えて実行されたりした場合、すぐにアラートがチームに通知されるため、エンドユーザーエクスペリエンスに悪影響が及ぶ前に対処できる。推奨フィルタによって、ジョブやクラスタの健全性に影響を与えるもっとも重要な問題を特定して、優先順位を付けられる
- エラーとなったジョブを特定し、迅速に解決:詳細なトレースビューは、ジョブの実行フローのどこで失敗したかを正確に表示するため、チームはトラブルシューティングを迅速に行うための完全なコンテキストの把握を可能にする。複数のジョブ実行を相互に比較することで、根本原因の分析を迅速化して実行時間、Sparkパフォーマンスメトリクス、クラスタ使用率、および構成の傾向と変化を特定できる
- コスト削減の機会を特定:リソース利用率とSparkアプリケーションのメトリクスによって、チームはオーバープロビジョニングされたクラスタの計算コストを削減して、非効率なジョブ実行を最適化する方法の特定を可能にする
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です