Shoeisha Technology Media

CodeZine(コードジン)

記事種別から探す

StackStormによる障害対応の自動化

StackStormで変わるシステム運用と活用事例 第3回

  • LINEで送る
  • このエントリーをはてなブックマークに追加

 NTTテクノクロスの萬治です。連載第1回「StackStormで変わる運用」で述べられたもの以外にも、DevとOpsのワークフローをStackStormで結びつけることには、さまざまなメリットがあります。本章ではそのメリットの1つである「ARによる運用稼動の削減」について説明し、OpenStack環境の運用についてどう適用できるか、ということについて考えていきます。

目次

ARという概念について

 前提として、運用自動化のキーワードとして最近注目されているAR = Auto-Remediationという概念について説明します。

 Auto-Remediation(直訳:自動修復)とは、その名の通り「障害が発生した際に自動で復旧すること」を示しています。私の知る限り、サービス基盤レベルでARという言葉が使われ始めたのは、2011年にFacebookが発表したMaking Facebook Self-Healingが初出です。

 上記の記事で、

 human engineers could focus on solving and preventing the larger, more complex outages.

と記されているように、ARを運用に取り入れることで「細々としたトラブル対応に時間を取らず、より大きな課題を解決するために時間を使う」ことができるようになります。

 具体的にどのようなことをARで行なうか、ということについては、MirantisのAuto-remediation: making an Openstack cloud self-healingという記事が参考になります。

 上記の記事では、以下のようなユースケースを挙げています。

  • Dead process
  • Lack of free disk space
  • Overflowed rabbitmq queues
  • Corrupted rabbitmq mnesia
  • Broken database replication
  • Node hardware failures(e.g. triggering VM evacuation)

 さて、次節から上記のようなARを実現するためにStackStormをどう使っていくかについて解説したいと思います。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • 萬治 渉(NTTテクノクロス株式会社)(マンジ ワタル)

    NTTテクノクロス株式会社 クラウド&セキュリティ事業部所属。2016年に入社後、OpenStackの検証、運用やCIツールによる環境構築自動化システムの設計、検証に携わる。近年は、StackStormによるフルスタックな運用自動化についての取り組みも行なっている。

バックナンバー

連載:StackStormで変わるシステム運用と活用事例
All contents copyright © 2005-2017 Shoeisha Co., Ltd. All rights reserved. ver.1.5