ARという概念について
前提として、運用自動化のキーワードとして最近注目されているAR = Auto-Remediationという概念について説明します。
Auto-Remediation(直訳:自動修復)とは、その名の通り「障害が発生した際に自動で復旧すること」を示しています。私の知る限り、サービス基盤レベルでARという言葉が使われ始めたのは、2011年にFacebookが発表したMaking Facebook Self-Healingが初出です。
上記の記事で、
human engineers could focus on solving and preventing the larger, more complex outages.
と記されているように、ARを運用に取り入れることで「細々としたトラブル対応に時間を取らず、より大きな課題を解決するために時間を使う」ことができるようになります。
具体的にどのようなことをARで行なうか、ということについては、MirantisのAuto-remediation: making an Openstack cloud self-healingという記事が参考になります。
上記の記事では、以下のようなユースケースを挙げています。
- Dead process
- Lack of free disk space
- Overflowed rabbitmq queues
- Corrupted rabbitmq mnesia
- Broken database replication
- Node hardware failures(e.g. triggering VM evacuation)
さて、次節から上記のようなARを実現するためにStackStormをどう使っていくかについて解説したいと思います。