システムの安定運用を実現するための取り組み
大学新聞の広告代理店として、人材を求める企業と仕事を求める学生のニーズをマッチングさせる情報誌ビジネスから始まったリクルート。「求職活動や採用活動を支援する人材領域」に加え、今ではSUUMOやじゃらん、ゼクシィ、ホットペッパーなど「住宅・旅行・飲食といった販促領域」においても、個人ユーザーと企業クライアントが出会う場を創り出し、より最適なマッチングを生み出すべくさまざまなビジネス・サービスを展開している。
鶴谷氏や芳賀氏が所属するデータ推進室は、販促領域や人材領域という事業領域ごとのデータ施策を推進する縦の組織と、データサイエンスやデータエンジニアリングという専門分野ごとに専門性を強化する横の組織とを併せ持つマトリックス型の組織構造を採用している。この縦の組織の内、SUUMO領域で担当しているシステムの一つが、SUUMOレコメンドシステムである。
「SUUMOレコメンドシステム」は、SUUMOの公式サイト上でユーザーのお勧めの物件をリコメンドするサービス。「このシステムは、最新の物件の情報や機械学習モデルの更新が行われないなど障害が発生するとユーザーの体験が悪化してしまうため、安定運用を実現する必要があった」と鶴谷氏は振り返る。鶴谷氏は証券系SIerで10年、インフラエンジニアやシステムコンサルタントを経験した後、2015年にリクルートに入社。リクルートIDの基盤の開発やクラウド移行を担当。その後、SUUMOレコメンドシステムの基盤移行や複数の分析基盤の運営などに携わってきた。
SUUMOレコメンドシステムの安定運用を実現するために、鶴谷氏たちが重視したのが「信頼性」と「回復性」である。信頼性とは、障害の発生しにくさや障害の発生する頻度をできるだけ少なくすること。一方の回復性とは、障害が発生した際にできるだけ素早く正常復旧させることである。「組織としてこのようなケイパビリティを備えることは必要だと考えていました」(鶴谷氏)
そこでデータ推進室では、3年前から安定運用のための各種取り組みを強化してきたが、「当初は信頼性の向上を中心に取り組みを進めていた」と鶴谷氏は語る。具体的には監視項目の整備や強化、不足している監視項目の追加、障害が発生した際の対応フローの整備など、トラブルが発生した際に適切に対応するためのルール整備に努めていたという。
その上で発生する障害に対して毎回、暫定対応や恒久対応することに加え、「同様の障害が発生しないよう横展開での調査や対抗を行うことを徹底してきました」と鶴谷氏は語る。それらの取り組みと共に、一定期間経過して古くなった基盤を社内の横断プロダクトに移行したり、サーバーレス化やCI/CD整備を進めることで技術負債を解消したり、保守運用が容易な基盤に作り替えることも行ってきたという。
「このような取り組みをした結果、リコメンドが表示されないなどの重度な障害が発生することがなくなり、障害が起きないことが当たり前の状態になりました」と鶴谷氏は話す。