オンラインモール「天猫」と共に発展してきたAlibaba Cloud
SBクラウドはソフトバンクが60%、アリババグループが40%出資し、日本にAlibaba Cloudを普及させることを目的に設立された合弁会社である。日本においてセールスだけではなく、データセンターの運営やサポート、プロダクトマーケティングなどを担当している。
アリババグループは1999年、BtoBの貿易のようなビジネスから始まった。2003年にはTaobaoというCtoCビジネスを開始し、2004年にはQRコード決済を中国国内でいち早く開始。2008年にはオンラインショッピングモール天猫を開始するなど、ECに特化したビジネスを展開してきたが、現在はECにとどまらず、動画サービスやSNSサービス、宅配サービスなども展開している。
Alibaba Cloudは現在、アリババグループが展開するECやマーケティング、SNS、エンタテインメント、ロジスティクスなどのさまざまのサービス・データ活用基盤となっている。
Alibaba Cloudが設立されたのは2009年。以来、天猫というオンラインショッピングモールの発展と共に進化をしてきた。現在Alibaba Cloudは世界20か所にリージョンを構えている。「世界有数のパブリッククラウドに成長した」と寺尾氏。アベイラビリティゾーンは58か所、CDN Nodeは2500ノード以上となっている。
サービスも多種多様で、仮想サーバーやデータベース、ストレージとCDN、ネットワークサービス、セキュリティサービスなどを提供している。とはいえ、ある調査会社の資料によると、Alibaba Cloudはメジャープレイヤーに近いニッチプレイヤーという位置づけとなっているが、今後、期待できるクラウドサービスとして注目されている。また、アジアパシフィックに限れば、2018年度の成長率は4.7%とグローバルプレイヤーを抑えて高い成長率を誇っている。
Alibaba Cloudが天猫と共に発展をしてきたというのには理由がある。それは双11(ダブルイレブン)が大きく関係する。ダブルイレブンとは11月11日の別称で、中国では独身の日として、大規模なショッピングフェスティバル(セールイベント)が開催される。天猫でも「ダブルイレブングローバルショッピングフェスティバル」を開催。「グローバルとついているように、海外にも配送できるため、私もパーツ、センサーなどを購入した」と寺尾氏は笑う。
昨年度、ダブルイレブン1日の取扱高は2135億元(約3.5兆円)を達成。配送も10億個以上と過去最大のセールイベントになった。
それは2017年の実績と比べても明らかだ。2017年の取扱高1682億元(約2.8兆円)を、昨年は15時間49分で達成。さらに残り8時間の間で1兆円近くの取扱高を達成。「この間だけでも取扱高が1.3倍に伸びている。この伸びを予測するのは非常に難しい」と寺尾氏は説明する。
もちろん、最初から現在の取扱高を扱えるインフラだったわけではない。「2009年から2013年は課題を見つけてはそれに挑戦し、システム化をすることを繰り替えてしていた」と寺尾氏。最初に起こった問題は、トラフィックの予測が困難なことで、CDNのキャパシティが不足し、アクセスができない自体に陥った。「2010年は画像を縮小することでトラフィックを圧縮した。翌年は全部門でトラフィック帯域予測を作成し、3年目の2012年にはトラフィック容量計画を自動で予測する仕組みを作った」と寺尾氏は熱く語る。2013年にはリソース管理の手順書が2000を超え、手動管理の限界を超えたため、リソース管理とスケジューラを開発した。それがオンラインサービスを担うSigmaとバッチジョブ向けのFuxiである。「この2つのツールにより多くの自動化を実現した」(寺尾氏)。
だが、2012年~2013年には負荷を与えると想定通りの動作をしないという問題が起こった。この対策として、CSP容量計画プラットフォームで容量の予測を人からシステムが行うように移行。流動自動配分や自動保護システムを開発し、過剰な負荷を発生した時に使うフェイルセーフスイッチを構築、4回もの大規模演習を実施したと言う。負荷テストを何度も実施し、600以上のバグを回収するなど、このような取り組みを1年間行うことにより「システムの信頼性の向上に努めた」(寺尾氏)。
2014年の6回目のダブルイレブンは最も安定していたと言う。「この頃になると、一通りのシステムは安定して動くようになったが、データセンターの拡張性について問題が出てきた」と寺尾氏は言う。この課題を解決するため、マルチリージョンの冗長化計画を開始。最初の年である2013年は一定の規模でユニット化し、CDNでアカウントIDをハッシュして、各ユニットに均等にロードバランシングをするというアプローチをとった。「片方のユニットが落ちると半分のユーザーも落ちてしまうという、いけてないシステムだった」と寺尾氏は語る。だがシングルリージョンで二重化をしても、限界がある。そこで2014年にはアリババ本社のある杭州(ハンジョウ)と上海の2か所という別リージョンで二重化を行った。2015年には1000km以上離れた都市にリージョンを分散、3都市4ユニットの構成でマルチアクティブ化を果たした。
また同年は中国国内でモバイルが普及し、「2015年にはモバイルアクセス率が50%となり、それから毎年10%ずつモバイルアクセス率が増えていった。モバイル購買が増えるとよりリソースの予測が難しくなる」と寺尾氏。さらにリソース効率の向上を図るため、レベル0というリソースプールを設け、オンラインサービス、バッチジョブ双方のプールを融通できるようなシステムを作った。「CPUの平均利用率が10%程度であったが、リソース混合をすることで、40%程度まで改善することができた。2015年から数千台規模で行い、徐々に混合部の規模を拡大している」(寺尾氏)
さらに時系列でも最適化することで、オンライサービスとバッチジョブ感のリソース調整により、平均CPU使用率を60%以上に向上していると言う。「この仕組み『データクラスタ』は、オープンソースで公開しているので、「関心のある人はぜひ、チェックして欲しい」(寺尾氏)。