SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2023 セッションレポート(AD)

SRE導入の秘訣は、組織にあったアプローチで手のつけやすいところから小さく始めること

【10-D-2】何から始める?組織へのSRE導入に向けて

  • このエントリーをはてなブックマークに追加

SREを組織に浸透させるためのアプローチ

 このように多くの効果が得られるSREを、組織に浸透させていくのは一筋縄ではいかない。そこでスリーシェイクでは、SREチームの位置づけ・目的を定義することを、SREを組織に導入する最初のステップとして位置づけている。組織の役割が曖昧で、メンバーに目的が浸透していないと、期待通りの結果を得られない原因となるからだ。その上で、スリーシェイクではGoogleが提唱するアプローチにこだわらず、お客さまの現状を踏まえた導入アプローチを採用している。

Googleが提唱するアプローチ
Googleが提唱するSREを導入するための段階的なアプローチ
スリーシェイクが実際にあるお客さまに実践したSRE導入のアプローチ
スリーシェイクが実際にあるお客さまに実践したSRE導入のアプローチ

 SREを浸透させていくアプローチはわかったが、実際にどういうところからSREに着手すればよいのか、悩んでいる人も多い。藏本氏は実践内容例として、監視基盤導入、SLI/SLOの定義、運用体制整備、IaC(Infrastructure as Code)、CI/CDの導入、パフォーマンス分析などを挙げている。

 「もちろん、これらをすべて一気に実践するのは無理がある。まずは小さく始めて、SREチームで成功体験を得ることが大事」と藏本氏。一つのプロダクトやサービスに展開して、成功すれば横展開していくのである。できれば新しいサービスで試すのが望ましいが、そう都合よく新しいサービスが生まれるわけではない。「既存サービスの中で、導入対象を選定し、小さく始めるのがベストプラクティスとなる」(藏本氏)

 導入対象のサービスを選定した後は「当社ではSLI、SLO、エラー予算を定義することから始めることが多い」と藏本氏は話す。これらの定義を上質なものにするためには、ある程度目星をつけながら、とにかくデータを取得することがおすすめだ。メトリクスなどの収集は、上質なSLIやSLOの設定に使うだけではない。トイルの削減にもつながるからだ。

 次はポストモーテムを実施する。ポストモーテムとは、インシデントとその影響、インシデントを軽減または解決するために取られたアクション、根本原因、およびインシデントの再発を防止するためのフォローアップアクションを書面で記録することである。適切な振り返りをするためには、障害解析に対して追跡ができるような仕組みが必要になる。そしてもう一つ大事なことは「特定個人を非難しない文化であること。つまり心理的安全性を担保していること」が重要だと藏本氏は言う。障害はシステマティックな問題や仕組みの問題だからだ。

 組織へのSRE導入の難しさとして、例えば、SREを導入する対象が決済基盤など、SREのSLOやエラーを許容する考え方と相性が悪いケースもある。このようなケースの場合は、「このサービスについて、SLOによるハンドリングをストップし、別の領域にSREの導入を進めていくことは一つの手」と藏本氏は語る。先述したように、SRE導入には、小さく始めて効果の出やすい領域から実績を作って行くことが、何よりも大事だからだ。

 さらに藏本氏はSRE人材の育成に関しても言及。SRE人材はOSやネットワーク、モニタリング、トラブルシュートなど、多くの技術スキルが求められる。さらに、関係する組織やアプリケーションの知識、関連システムの変更への対処方法など、提供サービス・システムに対するナレッジが必要になる。「これを一人の人間で満たすのは不可能に近い」と藏本氏は話す。

 藏本氏たちがSREを導入する際は、理想的なチームを話し合って決めた上で、例えば、開発部門からSREチームに留学してもらう形でバーチャルチームを結成し、内部での運用について知ってもらうような対応を行っている。

 とはいえ内製化や増員を考えるとSREを教育していく必要がある。その手法として藏本氏が注目しているのがオライリーの『SREの探究』という本で紹介されている「アクティブラーニング」である。アクティブラーニングとは座学ではなく生徒が能動的に考え、学習する教育方法で、同書ではアクティブラーニングの例としてロールプレイングゲームやカードゲームなどを活用した方法が紹介されている。「いずれの方法を用いるにしても、泥臭く障害やサービスを理解していくことが必要になる」と藏本氏。

 最後に藏本氏は次のように参加者に呼びかけセッションを締めた。「Googleが提唱するSREは、現在サービスを運用する上で最適だと言われる方法論の一つ。SRE本の通りに実践することが真のゴールではない。SREのプラテクティスを自分たちなりに解釈し、組織にあったSREを手のつけやすいところから小さく始めていきましょう」

関連リンク

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
Developers Summit 2023 セッションレポート連載記事一覧

もっと読む

この記事の著者

中村 仁美(ナカムラ ヒトミ)

 大阪府出身。教育大学卒。大学時代は臨床心理学を専攻。大手化学メーカー、日経BP社、ITに特化したコンテンツサービス&プロモーション会社を経て、2002年、フリーランス編集&ライターとして独立。現在はIT、キャリアというテーマを中心に活動中。IT記者会所属。趣味は読書、ドライブ、城探訪(日本の城)。...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

川又 眞(カワマタ シン)

インタビュー、ポートレート、商品撮影写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/17477 2023/03/27 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング