SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

【デブサミ2021夏】セッションレポート(AD)

年間売上約200億のECサイトを支えるSREチームの取り組みとは? LOWYAに学ぶNew Relic One活用【デブサミ2021夏】

【A-2】LOWYA旗艦店における事業成長とサービス品質向上の両立を目指すSREの挑戦

  • このエントリーをはてなブックマークに追加

SREチームが求めるオブザーバビリティを実現するには

 ベガコーポレーションのSREチームは、このミッションのために「インフラの安定運用」「セキュリティの強化」「インシデント管理」「適切なモニタリング」といった取り組みを行っている。

ベガコーポレーションのSREの取り組み
ベガコーポレーションのSREの取り組み

 そして、最大の取り組みがオブザーバビリティ(可観測性)だ。小原氏は、システムに予期せぬ事態が起きても、それを把握できる能力だと解説する。オブザーバビリティの実現には、インフラだけでなく、バックエンド、フロントエンド、ネイティブアプリまで、エンドツーエンドで可視化する必要があり、そのために採用したのが、New Relic Oneである。

 小原氏はNew Relic Oneの特に気に入っている点として、以下の3つ紹介した。

 「一つ目は、トラブルシューティングやボトルネックの解析が簡単であること。どのメソッドがどういう順序で呼ばれて何秒かかっているのか、どこでどんなエラーが発生しているのか、一番コールされていて性能へのインパクトが大きい処理はどれかなど、特別なスキルを持っている人でなくても、画面をポチポチたどっていくだけで調査することができます。

二つ目は性能指標の可視化してくれる点です。ApdexスコアやCore Web Vitalsなど、ユーザー観点での指標を自動で可視化してくれます。

三つ目はリアルユーザーモニタリングという機能で、ユーザー視点など、さまざまな観点から監視することができます」(小原氏)

 New Relic Oneについては、本セッションのファシリテータを務めたNew Relic社のシニアソリューションコンサルタントである佐々木千枝氏が説明を行った。

 「New Relic Oneはフロントエンドからサーバーサイドまで、フルスタックなオブザーバビリティ・プラットフォーム。SREがNew Relic Oneを活用する際のポイントは二つ。まずはサービスレベルの定量化できること。サービスレベルを定量的に評価するための指標であるSLIをリアルタイムに計測し、可視化して現状を正しく把握できます。もう一つは、サービスの信頼性が低下した際の対処の迅速化。システムの全容を把握して原因を突き止めるための有用な情報を提供できる機能を提供しています」(佐々木氏)

 その一例として、システムをまたいでボトルネックを特定する分散トレーシングと、いつもと違う振る舞いをしているところを見つけ出すAlOpsの機能が紹介された。

ベガコーポレーションのAlOps
分散トレーシングとAlOps

リプレイスの取り組みとその成果

 続いては、SREチームと開発チームがどのように旗艦店ECシステムのリプレイスに取り組み、どのような成果を上げたのか。その背景や具体的な取り組み内容が語られた。まずリプレイスに至る背景として、課題として挙げられたのが、機能追加の問題だ。

 「パッケージ製品のため、機能追加したい場合でも、パッケージベンダーへ改修依頼を行う必要がありました。要件定義から実際に納品され、検収するまで最低1カ月はリードタイムが必要な状況。また、拡張性についても改修できる範囲に制約があり、ビジネスの多様な要求に応えられていない状況でした」(上月氏)

 そして、より深刻だったのが、サイト遅延という課題である。旗艦店では「LOWYAの日」という大規模なセールイベントを実施しており、普段の数倍のアクセスが集中するため、サーバー増強をベンダーに依頼した。

 しかし事前の予測を超えるアクセス量となることもあり、キャパシティプランニングは不確実な状態。アーキテクチャ自体への変更が不可であったため、スケールアップしても性能的な限界があり、アクセスできる人数を制限するなどの対応をしていたという。さらに事業の成長に合わせて機能を追加し、スケールに耐えるシステムにするために、2年ほどかけてリプレイスを進めていった。

 「まず機能追加については内製開発に振り切り、開発チームは2名から16名に拡大。スクラム導入やモブプログラミングなども実践しながら、リリースサイクルを1週間に短縮しました」(上月氏)

 開発のリプレイスによって、他社ブランドの商品を幅広く取り扱うというLOWYA旗艦店のプラットフォーム化も可能となった。結果として、変化の激しいビジネス要求に対して、アジリティ高く対応できるようになったと上月氏は強調する。

 一方で、サイト遅延に対する課題は残っていたため、SREチームの小原氏と相談してNew Relic Oneを導入し、オブザーバビリティの強化を決めた。リプレイス後は以下のような取り組みを行っている。

  • 週に1回のパフォーマンス定点観測会
  • 月1に1回のSLO Review
  • 年1に1回の脆弱性診断

 開発チームとSREチームが協業して旗艦店システムのリプレイスに取り組み、リプレイス後も継続的に信頼性を向上させたことで、前述のサイト遅延などの課題を解消させていった。

 その成果は、リプレイス後初の「LOWYAの日」で発揮された。事前準備としてインフラの増強に加え、Pre-Warming計画やオンコール体制の確認を行った。しかし、セール開始直後に想定を超えるリクエストが殺到して、レスポンスが遅くなる事象が発生。DBコネクション数の枯渇、メール配送遅延、多重注文、カード決済のしきい値問題といった問題が発生したのだ。

「LOWYAの日」の様子
「LOWYAの日」の様子

 しかし、New Relic Oneを入れていたことで早急な原因特定が可能となり、迅速に対応することができた。

 「LOWYAの日は、日商が約5.5億円、昨年対比でいうと約2倍という結果を出すことができました。課題を早急に解決できたことで、その後はトラブルなく無事に終了し、ポストモーテムを実施して、同じ失敗を繰り返さないような対策を検討しました」

 今後の取り組みとして、小原氏は信頼性向上に関する課題を効率的に解決していくために、LOWYAを支えるすべてのサービスに対して、オブザーバビリティの強化をしていきたいと語る。また、上月氏はベガコーポレーションの成長を支えるエンジニアの採用を加速しつつ、サイトスピードなどの性能指標と売上の関連性の可視化などを通じて、事業成長とエンジニアリングを両立するための環境整備にも取り組んでいきたいと話している。

無料でNew Relic Oneにアクセス!

 New Relic Oneは簡単なセットアップですぐに効果を実感できます。全機能にアクセスできて、毎月100GBまでデータを取り込める無料プランもございます。まずは無料で効果を実感してみてください。

関連リンク

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
【デブサミ2021夏】セッションレポート連載記事一覧

もっと読む

この記事の著者

馬場 美由紀(ババ ミユキ)

 エンジニアとテクノロジーが好きな編集・ライター。エンジニア向けキャリアサイト「Tech総研」「CodeIQ MAGAZINE」、Web技術者向けの情報メディア「HTML5 Experts.jp」などでライティング、コンテンツディレクション、イベント企画などを行う。HTML5 開発者コミュニティ「h...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/14691 2021/10/22 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング