非エンジニアも巻き込み、データに向き合う「DataOps」
DXやデータ活用の本来の姿とは、データ統合基盤整備やダッシュボードを通じて、あらゆる社員がデータを基に定量的に状態を把握し、前を向いて進むこと。吉田氏は「ビジネスや事業へのコミット力を高めること」と言う。
しかし実際に起きていることは、社内に分散しているデータをデータ基盤に統合する時点でハードルが高く、泥沼化してしまう。あるいはダッシュボードで可視化したのはいいがそこで満足してしまい、誰にも見てもらえないダッシュボードが存在するのみ。これでは手段が目的となってしまい、本来望んでいた事業の成長が達成できない。
吉田氏は「本来求められるデータ活用とは、事業やサービスの成長(グロース)を前提としたデータ活用や統合が必要だと考えます。その時にDataOpsという手法が重要になります」と強調する。
ではDataOpsとは何か。DevOpsの“Dev”を“Data”に置き換えたもので、いわば「DevOpsのデータ活用版」。データフローの確立と、日次かつ継続的なデータ利活用を組織全体で協調して進めることで、組織におけるデータ利活用のプロセスを最適化・自動化していく取り組みだ。
語感が似ているように、DevOpsのマインドをかなり継承しているのが特徴だ。例えばアジャイルプロセスの適用、データを利用する社内顧客との統合チーム、作業全てをコードで実装するなど、ソフトウェアエンジニアリングで培ったベストプラクティスを適用したものとなっている。
スリーシェイクではそうした手法だけではなく、概念を拡張して「データの民主化」をテーマに掲げている。継続的デリバリーや継続的データ統合が何のためかと考えると、吉田氏は「データ基盤を管理・構築するエンジニアと、業務に携わる非エンジニア(営業、マーケティング、コーポレートや法務など)が全員同じようにデータと向き合い、同じゴールに向かってプロセスの改善を実施していくことが私たちの考えるDataOpsです」と語る。
繰り返しになるが、重要なことはデータ統合基盤の構築や可視化して「終わり」ではない。例えばダッシュボードが業務で使われないなら、活用されるにはどうしたらいいかを関係者一同で知恵を出し合って改善していく。さらには事業の利益に貢献するための改善へと発展させていく必要がある。
実際のビジネスを考えれば継続的な改善は不可避だ。技術もビジネスも日々変化していく。またビジネスで使うデータは、商品や取引先が増えるなど変化していく。目的自体が変化することもある。絶え間なく改善を繰り返していくには、小さく、低コストで改善を繰り返すことで精度を高めていくことが重要だ。
かつてよく見られたケースでは、大きな基幹システムや高価なBIツールの導入だけで莫大な費用がかかり、数か月単位の時間がかかるプロジェクトになることもあった。ここまでコストや労力をかけて失敗すると、再挑戦が難しくなってしまう。しかし1/10や1/100のコストで導入できれば失敗しても再挑戦がしやすくなる。小さな改善を積み重ねていくことが事業の成長につながる。
またこれまではデータを扱えるのはデータサイエンティストや専門家のみだった。データの民主化を進めていくと、先述したようにあらゆる職務のメンバーが一緒に改善に加わるようになる。「そうなるとデータサイエンティストは支援者や開拓者という位置づけで、フレームワークの横にいるのがベストではないかと考えています」と吉田氏。
DataOps実現の課題と、必要な3つの要素とは
データ統合や可視化のためのシステム全体像は下図のようになる。大きな流れとしては、分散しているデータからデータを抽出し、保管するためのデータウェアハウスに投入。場合によってはデータマートも作り、そこからデータを引き出してBIに投入するといったフェーズがある。こうしたシステムを構築するのは難易度が高く、DataOps実現のうえで現実的かつ大きな障壁となる。
DataOps実現に必要な要素として吉田氏は1.再現性、2.低コスト、3.セキュリティとパフォーマンス管理の3点を挙げる。
1.再現性とは、データの民主化を進めることで属人化することなくPDCAを回せる環境になること。上記のようなデータの仕組みを「エンジニアなしでできるようにすることが非常に大事」と吉田氏は強調する。限られた人しか作ることができないと、システムはブラックボックス化してしまう。データの連携や流れの可視化を組織全体で共通言語で話せるようにすることで、継続的なデータ活用改善が可能になる。
2.低コストとは、データ基盤構築コスト(設計、開発、構築、保守)を低くすること。データソースからデータウェアハウスへ、またデータウェアハウスから可視化ツールへ連携する際に個別のバッチを作成すると、開発でも保守でもコスト増につながる。また基盤そのものにもコストがかかる。こうしたコスト増につながる要素を取り除き、全体のコストを下げていく必要がある。
3.セキュリティとパフォーマンス管理はどちらも大事。セキュリティへの配慮不足が、情報漏えいなどのインシデントにつながり、事業存続の危機に陥る場合もある。また、データ量が増えるとデータ処理に時間がかかるようになる。データが可視化されるまで何時間もかかってしまうケースもある。そうなると、タイムリーなデータ活用ができなくなってしまう。セキュリティもパフォーマンスもどちらもきちんと管理する必要がある。
スリーシェイクはDataOpsを実現するクラウド型ETLツール「Reckoner」を提供している。従来プログラムでバッチを作っていたところをノーコード化することで、非エンジニアでもデータのパイプラインを作れるようになる。吉田氏は「データ活用をこれまでにない直感的な方法で実現できます」と言う。
このReckonerは図2の「バッチ」に相当する部分、つまりデータソースからデータウェアハウスへ、データウェアハウスから可視化ツールへの連携のためのバッチ処理で使われる。
データソースはファイル(CSVやExcel、Sheets)、データベースやストレージ、「Salesforce」や「kintone」といったSaaSなど豊富に対応している。こうしたデータソースからデータを抽出し、加工などを経て、データウェアハウスやGoogle CloudのBigQueryなどに投下する。さらにデータ活用基盤となるマーケティングオートメーションの利用や、外部APIと連携したりなど多様な活用が可能となる。
先に示したDataOpsに必要な要素とReckonerを照らし合わせてみよう。1.再現性では、GUIで非エンジニアでも一目でデータの流れが分かるようになっている。
2.低コストでは、ノーコードでクラウド型であることが大きくコストを下げることにつながる。ETLはかなり前からあるものの、専門家や高いスキルがないと扱えないものが多かった。加えて従来のETLは基本的にオンプレミスで稼働させるソフトウェアパッケージであることが多い。しかしReckonerはクラウド型ツールとなるので、環境構築、導入、保守などが不要となり、コストをかなり圧縮できる。
3.セキュリティとパフォーマンスの管理では、クラウドのマネージドサービスであることとスリーシェイクの技術力が実現する。SREとセキュリティの高いスキルを持つプロフェッショナル集団となるスリーシェイクが運営しているため、セキュリティもパフォーマンスも万全だ。
クラウド型ETL/データパイプラインツール「Reckoner」はどのようにDataOpsを実現するのか
あらためてReckonerの特徴をキーワードで挙げると、(1)ノーコード、(2)豊富な連携先、(3)直感的に操作可能なUI、(4)プレビュー機能、(5)安全なインフラセキュリティ、(6)柔軟な課金体系、となる。
(1)ノーコードは先に示した通り、GUIでバッチが作れるためプログラミングは一切不要だ。画面上でクリックやドラッグしながら、シンプルなステップでワークフローを作成できる。
(2)豊富な連携先は、現状では30種類以上のデータベースやSaaSアプリケーションと連携できるようになっている。今後は連携先となるデータソースをさらに増やしていくので、あらゆるデータと連携できると考えていいだろう。
(3)直感的に操作可能なUIは、初期設定からデプロイまで、あらゆる操作が直感的にできるように設計されている。一般的にオンプレミス型のETLだと、インストールやインフラの構築など膨大な準備や手間が必要になる。しかしReckonerなら、アカウントを作成してから10~15分程度で最初のパイプラインを作成が可能になる。
(4)プレビュー機能は小さな試行錯誤を素早く繰り返すには強力な機能となる。一般的にETLでは実際に処理を実行してみないと分からないところがある。その途中経過でミスがあっても、時間を経て最後まで処理してようやく判明することも少なくない。その点、Reckonerは画面上でテスト実行(ドライラン)することで、データがどのように変化するのをプロセスごとにプレビューで確認できる。これも試行錯誤を素早く繰り返すことにつながる。
(5)安全なインフラセキュリティについては、Reckonerのサービスを提供しているスリーシェイクがSREに強く、クラウド基盤のコンサルティングや運用に強い企業なので、Reckonerのサービス基盤も高い基準で運用されている。可用性、バックアップ、セキュリティ対策どれも不要で、安心して任せられる。
(6)柔軟な課金体系は、現時点ではLiteプラン、Standardプラン、Enterpriseプランの3種類が用意されている。月額固定費となっており、月次データ量とタスク数でプランが分かれている。なお近々、Salesforceやkintoneに特化したライトウェイトなプランも提供される予定だという。
ユースケースをいくつか挙げてみよう。1点目はマルチクラウド実現を目的とするもので、Reckonerを通じてGoogle Cloud、AWS、Azureへのデータパイプラインを構築することで、複数のクラウドを活用することが可能となる。2点目はシステム統合で、表計算のデータやSaaSデータを基幹システムに向けてReckonerで統合する。あるいはその逆として、基幹システムから各種サービスに分散させることも可能だ。3点目は分析基盤構築で、各種データソースからデータ分析パイプラインを作成することで、顧客分析、売上分析、マーケティング分析などに活用する。
auコマース&ライフではau Payマーケットのデータ連携基盤にReckonerを採用した。すでに大規模のデータを活用しており、それまではオンプレミス上でのETLを用いていた。Reckonerに移行することでデータ連携エラーがゼロとなり、データ連携処理にかかっていた時間が約85%削減できたという。auコマース&ライフは「クラウド型サービスを用いることでパフォーマンスが高まり、ビジネスの成長にも寄与した」と話している。
最後に吉田氏は「あらためてReckonerはクラウド型ETL/データパイプラインツールです。使いやすさを追求し、データ連携をストレスフリーでできるようになります。データ活用やデータ統合でお困りの方はお気軽にお問い合わせください」と述べてセッションを締めた。
関連情報
スリーシェイクでは、定期セミナーを開催しています! イベントを見逃してしまった方やReckonerを実際に触ってみたい方など、少しでも興味があれば是非ご参加ください! ※事前登録が必要です。
- セミナーの一覧はこちらから