SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

翔泳社の本(AD)

DataOpsとは何か? データサイエンティストが最大の価値を発揮するための戦略と方法論

  • X ポスト
  • このエントリーをはてなブックマークに追加

 膨大なデータを収集・分析しビジネスに活かす。データ活用の文脈でよく使われる言い回しですが、実現するとなると途方もなく難しいプロジェクトです。多くの企業がデータサイエンスに投資しているはずなのに、なぜうまくいかないのでしょうか。そのボトルネックに、データサイエンティストが十分な仕事をできていないことが挙げられます。価値を最大限に発揮するには、チーム作りと戦略が要。こうした要点について、『実践DataOps』(翔泳社)から紹介します。

  • X ポスト
  • このエントリーをはてなブックマークに追加

 本記事は『実践DataOps』(Harvinder Atwal著、丸山大輔/松田和雄/關哲也翻訳)の「まえがき」から抜粋したものです。掲載にあたって編集しています。

まえがき

 現代はデータを活用するには絶好の時代だといえます。データの収集量は指数的に増加しています。機械学習(ML)や人工知能(AI)のアルゴリズムは発展を遂げています。また、10年前に比べてはるかに大量のデータを扱えるソフトウェアライブラリが飛躍的に増加しています。そして、データの保存や処理を行うビッグデータ技術が大きく進展しています。これらのことがビジネス、サイエンス、そして政府に変革期をもたらしています。

 データサイエンスが目指しているのは、データからナレッジを抽出することで最適な意思決定を支援し、他の方法では実現できないような有益な行動を導き出すことです。これを可能にするために、データサイエンスはさまざまな形式のデータに対して科学的な手法、アルゴリズム、そしてプロセスを適用します。データサイエンスは他の技術やスキルと切り離して存在するのではありません。データエンジニアリングやデータアナリティクスなどの関連する広範囲な技術や知識の一部として存在するのです。

 どのような技術的な変化にも過度な期待がつきものですが、データサイエンスも例外ではありません。多くの業界や分野ではデータドリブン型のデジタルトランスフォーメーション(DX)に取り組み始めたばかりですが、今後10年間で機械学習、ディープラーニング、そしてその他のデータサイエンス技術によって、個人に最適化した医療サービスの提供から、財務管理、そして自動運転車やバーチャルアシスタントなどの機械との付き合い方に至るまで、私たちの生活のあらゆる側面が一変することでしょう。

 私たちはデータ活用による変革の始まりを迎えています。同様に、データから成果を生み出す最適なプロセスを見出す取り組みも、まだ始まったばかりです。19世紀の初頭、製造業はオーダーメイドの手作業による生産から機械による自動化への移行に直面しました。現代のデータサイエンスは、これに相当する転換期の真っただ中にいるといえます。

本書の目的

 データサイエンスに多額の投資を行っている組織は少なくありません。しかし、成熟度の低さが物語るように、それらの組織は必ずしも見返りを得られているわけではなく、その投資からビジネス価値を生み出せていないのが実情です。Forrester Researchによると、現在データサイエンスへの投資から大きなリターンを得ている企業はわずか22%にすぎません。データサイエンスを導入している場合、その大半は顧客にまったく影響を与えないノートパソコン上で行っている研究プロジェクトか、本番環境のワークフローを想定していないローカルアプリケーションか、ムダに費用を投下された高コストのITプロジェクトかのいずれかです。

 失敗の確率が高いにもかかわらず、対処方法や議論の内容は依然として変わりません。データサイエンティストの多くは機械学習やAIのモデルの作成方法については語ってくれますが、それらを本番環境、つまり顧客にサービスを提供している信頼性の高い運用環境に導入することについては、言及する人が少ないのが実情です。データからビジネスと顧客価値を創出するという点では、アルゴリズムは氷山の一角にすぎません。

 ビッグデータの領域を得意とするテクノロジーベンダーは、最新のストレージやデータ処理ソリューションについては宣伝しますが、IT部門以外のエンドユーザーが簡単にデータにアクセスする方法について触れることはありません。ソリューションベンダーは最新のプラットフォームについては説明してくれますが、データの効果的な利用を妨げる組織課題を克服する方法については説明してくれないのです。既存のプロセスに新しいテクノロジーを加えれば、単に既存のプロセスを高コストにするだけで終わってしまいます。

 私がこの仕事を始めた20年以上前から、組織がよりよい意思決定を行うためにソフトスキル、データの可視化、そしてインサイトなどが提唱されてきました。しかし、付加価値を生み出すデータの生産性に与えた影響はほとんどないと言ってよいでしょう。データサイエンティストにとってソフトスキルは重要です。データサイエンティストは非常に複雑なデータを扱い、それを関係者がわかる簡単な言葉に変換しなければなりません。しかし、直感頼りの意思決定を続けている組織文化では、ソフトスキルが最も高いデータサイエンティストであっても意思決定とそれに基づく取り組みを進めていくのは至難の業です。

 技術、アルゴリズム、そしてソフトスキルに焦点を当てるだけでは不十分です。同じ解決策を採り続けても結果が芳しくないのであれば、データアナリティクスに関する一般的な考え方が間違っている可能性があります。

 データマネジメントやデータ利用で用いられるアプローチの多くは、現在とは状況が大きく異なる時代に開発されたものです。当時はデータ量がそれほど多くはなく、コンピューターリソースが高価でストレージ容量にも制約がありました。そして、テストや学習の機会は少なく、自動化の仕組みも存在しませんでした。このような状況下でデータは主に業務運営に必要とされ、不測の事態を避けるために厳格なアクセスコントロールと厳重な管理が必要でした。政府、金融機関、運輸業、製造業など大規模な組織だけがデータアナリティクスを活用し、最重要課題に取り組んでいました。

 例えば、私が最初に手がけたプロジェクトの1つにBritish Airwaysのケースがあります。これは数十億ドル規模の航空機の更新計画の一環として、購入すべき長距離路線用の航空機の最適な機種構成を決定するというものでした。こうしたケースでは不確実性が高いがために意思決定は困難を極めます。そのため、予測範囲や潜在的なリスクのモデリングに多くの時間が費やされ、数年間にわたることも珍しくはありませんでした。

 私たちは今、データに関する制約がはるかに少ない時代に生きています。そのためデータドリブン型の意思決定は、写真編集を行うモバイルアプリの自動補正機能からWebメールの文章のオートコンプリートまで、あらゆる場所でより小さな単位で行うことが求められています。また、観測や測定から得られたデータを使って学習させた予測モデルを作り、意思決定の不確実性を減らすということが以前よりも低コストでできるようになりました。

 データドリブン型の意思決定とは、自動化、スケーラビリティ、再現性、検証容易性、迅速性などの特徴を備えたものであるべきです。しかし、多くの組織がいまだに大規模なウォーターフォール型の研究プロジェクトとしてデータサイエンスに取り組んでおり、データ準備にも人為的制約を設けています。データサイエンスへの投資に対する収益性の低さは20世紀的なデータマネジメント手法の適用が原因なのです。しかしこの21世紀において最適な意思決定を実現するには21世紀的なアプローチを採用すべきです。

 2016年の後半になると、データサイエンティストが顧客やステークホルダーに貢献できていないことに私は不満を感じるようになりました。私たちは測定可能な形で収益に価値を付加し、顧客のコストを削減するという企業のミッション達成に貢献していましたが、それでもまだ障壁やフラストレーションはありました。業務上の課題を整理するのを支援したり、その問題に対して高コストなデータサイエンティストの時間を使う必要がない理由を説明したりするのに膨大な時間を費やしていました。

 データサイエンティストが生み出す意思決定支援のインサイトは実際の行動には結び付いていませんでした。また、新規データを取得したりデータの矛盾を調査したりするのに必要以上にリソースを割いていました。クラウドを用いた最新のアナリティクスとデータレイクのインフラは、以前よりも保守や最適化が困難になり、既存のアーキテクチャからの移行スピードを制限せざるを得ませんでした。

 既存のアーキテクチャとツールの使用には専門的なスキルが必要となり、データサイエンティストがステークホルダーにとってのボトルネックになったり、アドホックなデータ分析を行うためのリソースとしてムダ使いされたりしていました。要するに、私たちは思うようには効率化できておらず、根本的に異なるアプローチを採る必要があったのです。

もしあなたが同じような状況に陥ったことがあるのなら、本書はそんなあなたにぴったりの一冊です。本書はデータサイエンスとアナリティクスを提供するための既存のアプローチに異議を唱え、今現在の環境に最適で将来の変化に柔軟に対応できる新しい方法論を解説しています。

DataOpsとは何か

 データサイエンスやアナリティクスが発展するにつれ、多くの人たちが共通の課題に直面しました。できるだけ迅速かつ効率的に価値を生み出すことが求められると同時に、複雑性の高さに対処する必要があったのです。そこで製造業やソフトウェア開発などで生み出されたのがリーンシンキング、アジャイル手法、DevOpsなどの革新的なアプローチです。データサイエンスやアナリティクスの専門家もこのようなアプローチを採ることは可能です。

 2017年、私は必要に迫られてデータに基づいたパーソナライズ機能を実現するために異なる方法論を試すことにしました。この機能は重要なマーケティング戦略の1つになっていましたが、さらなる投資を引き出すには短期間で成果を出す必要がありました。私はWebサイトとモバイルアプリを専業とする会社で働いていたこともあり、ソフトウェア開発、プロダクトエンジニアリング、プロダクトマネジメントなどの分野の同僚がいました。そのため、彼らが用いているアイデアを迅速にMVP(Minimum Viable Product : 実用最小限の製品)に仕上げ、時間をかけながら反復的に最適化していくという概念やアプローチに精通していました。そこで私は、パーソナライズされた顧客体験の提供に必要なデータや機械学習モデルのライフサイクルにこのアプローチを適用することにしました。

 まずはマーケティングチームと緊密に連携し、成果目標と検証すべき仮説の優先順位についてお互いの認識をすり合わせました。次に目標を達成するために必要なデータプロダクトを特定しました。データプロダクトとは、機械学習用の特徴量を含むデータセット、機械学習モデルそのもの、そして検証結果を測定するためのダッシュボードなどです。この新しいアプローチは顧客から重要なフィードバックを収集するのに役立ちました。

 この段階ではデータの統合、モデルの構築、そしてモデルの展開(デプロイ)はまだ「ひもと粘着テープ」を使ってその場しのぎで作り上げたプロセスでしかなく、データエンジニアリングチームをもっと巻き込む必要がありました。データエンジニアリングチームの支援が増すことで、データの利用しやすさの改善、データ品質のモニタリング、そしてデータパイプラインの自動化や高速化などを実現できました。それ以外にもデータ変換のリファクタリングによる効率性と再利用性の向上、機械学習のアウトプットの厳格なテスト、そしてアプリケーションへの統合なども実現できました。

 検証結果の測定を通じて検証すべき新たな仮説や統合すべきデータソースに関するフィードバックが得られました。そこで、データエンジニアリングチームや技術チームと協力して継続的な改善に取り組み、データサイクルを分析して解消すべきボトルネックと品質上の問題を明らかにしました。

 結果は私たちの期待を大幅に上回るものでした。3カ月という期間で新たな機械学習モデルの開発と検証結果の分析にかかる時間を劇的に短縮できました。さらに重要なことは、6カ月という短い期間で顧客満足度や売上などの主要な経営指標を劇的に改善できたという点です。もし従来のような断片的なプロジェクトの優先順位付けとアウトプットの提供サイクルを継続していれば、同じ成果を実現するには相当な時間がかかっていたことでしょう。偶然にも私たちはDataOpsを利用したデータサイエンスへの道を歩み始めていたのです。

 DataOpsという用語はDataとOperationsを組み合わせたものであり、Lenny Liebmannが2014年に「3 reasons why DataOps is essential for big data success」というブログ投稿で初めて紹介した言葉です。しかし一般化が進んだのはAndy Palmerが2015年に公開したブログ「From DevOps to DataOps」からでした。その後、2018年にGartnerがデータマネジメント領域の「ハイプサイクル」で発表するところまで関心が高まっています。本書を執筆した私の目標は、DataOpsがハイプ以上に価値があることを納得してもらうことです。

 DataOpsは新しい方法論であるため、この分野の他の多くの用語と同様にさまざまな定義が存在しています。GartnerはDataOpsをデータマネジメントのプラクティスとして狭義にこう定義しています。

...組織全体のデータ管理者と利用者の間のコミュニケーション、統合、自動化を改善することに焦点を当てた、共同で行うデータマネジメントのプラクティスです。DataOpsの目標はデータ、データモデル、そして関連するリソースを安定的かつ計画的に提供することです。絶え間なく変化する環境下でデータ利用の価値を向上させるために、DataOpsでは最適なセキュリティ性、品質、メタデータを備えたデータ提供を自動化する技術を用います。

 DataOpsに含まれる「Ops」という言葉は、データマネジメントやデータアナリティクスとは何かということ以上に、データの提供や結果のアウトプットをどのように運用するかをよく考えなければならないことを教えてくれます。実際には、データ配信とデータパイプラインは複数のチームが関与する大規模なデータアプリケーションの一要素にすぎません。そのため、DataOpsによって最大限の利益を得られるようにするには、アプリケーションのユースケース、データを取得してから利用されるまでのデータライフサイクルに関わるすべてのチーム、さらには最終的な結果までも含めて考える必要があります。

 このような理由から、私はDataKitchenが提唱しているDataOpsの広義な定義を支持しています注6。その定義はデータアナリティクス、リーンシンキング、アジャイルプラクティス、そしてDevOpsの文化を組み合わせたものです。

  • アジャイルプラクティスは「必要な人」に対して価値をもたらす「必要なこと」に取り組むことを可能にします。
  • リーンシンキングはムダやボトルネックの排除、品質の向上、データフローのモニタリング、そして利用者にとってより安価なデータの実現に焦点を当てます。
  • DevOpsと同様のアプローチを実践することで、これまでサイロ化されていたチーム間にコラボレーションの文化を生み出します。このプラクティスによって、データアナリティクスチームはデータライフサイクル全体にわたる自動化されたプロセスを通じてより効率的に作業を行い、より迅速かつ信頼性の高いサービスを提供できます。

 DataOpsは単純なデータ共有だけでなく、Gartnerのモデルで一般化されたあらゆるデータアナリティクス(記述的、診断的、予測的、処方的)も含めたデータ利用のユースケースを通じて複数のデータ利用者に利益をもたらすことを目的としています。データアナリティクス、データサイエンス、データエンジニアリング、そしてDevOpsのスキルとビジネス部門の専門知識を持つ自己完結型のチームが緊密に連携して活動します。

 データサイエンスにおけるDataOpsの目標は、迅速で拡張性と反復性の高いプロセスによって未処理のRAWデータから顧客に有用性を提供するデータプロダクトに変えることです。データサイエンスにおけるデータプロダクトとは、サービスやプロダクトの運用にデータサイエンスを取り入れたものです。Googleマップのルート検索やNetflixの商品レコメンドなど、私たちは顧客の立場で1日に何度もデータプロダクトを利用しています。

 データプロダクトを作り上げる取り組みは一度限りのプロジェクトではありません。データプロダクトは常にモニタリングされ、実験に基づいた反復が行われ、改善につながるフィードバックを受けながら継続的に生産されます。データプロダクトは、所有者がいて、再現性があり、最終目標を達成するものです。ユーザーやコンピューターはAPI、可視化、あるいはWebやモバイルアプリのインターフェイスなど、さまざまな方法でデータプロダクトと対話できます。

RAWデータを有用なデータプロダクトに変換する一連のプロセスは、高度なコラボレーション、自動化、そして継続的な改善が必要なエンド・ツー・エンドの組立ラインのプロセスとして扱えます。そのことを理解できれば、データサイエンスやアナリティクスが直面する多くの課題に対する解決策としてDataOpsを活用できるでしょう。

DataOpsではないもの

 DataOpsが何なのかを理解するのと同様に、DataOpsではないものを理解することも重要です。

  • DataOpsはアジャイルソフトウェア開発、リーン生産方式、そしてDevOpsからベストプラクティスを取り入れていますが、それらを単にコピーしているわけではありません。根本的な違いは、ソフトウェア開発ではデプロイされるアプリケーションコードに焦点を当てている一方で、データサイエンスとアナリティクスではコードとデータに焦点を当てている点です。複雑性の大部分は変換処理やモデリングに使われるコードよりも、データの中に潜んでいるケースが多いものです。したがって、DataOpsはデータの取得から廃棄、ビジネス上の問題の定義からモデルの削除に至るまで、データ、情報、そしてモデルのライフサイクルに焦点を当てています。
  • DataOpsは機械学習を用いてデータから意思決定に至る一貫したプロセスを実現するのに適しています。ただし、DataOpsは機械学習やデータサイエンスに限定されるものではありません。データプロダクトにつながるあらゆるデータ指向の業務でこの方法論からメリットを得られます。 DataOpsはベンダーから購入したりGitHubからクローンしたりする製品ではありません。DevOpsと同様に、導入に成功するには技術よりもコラボレーション、組織改革、そしてベストプラクティスのほうがはるかに重要になります。
  • DataOpsは特定の言語、ツール、アルゴリズム、ソフトウェアライブラリに縛られるものではありません。テクノロジーやアルゴリズムは急速に進化し、絶え間なく変化しているため、どのサービスやソフトウェアを使用すべきかを規定することは不可能です。しかし、ソリューションの中には他と比べてDataOpsをより効果的にサポートしてくれるものがあります。また、原則の一部はそれらソリューションを選択する際の指針となります。
  • DataOpsはデータに基づいて行われるインサイトに取って代わるものではありません。DataOpsの方法論はさまざまな方法で高品質なデータの提供をスピードアップします。これによって、より簡単かつ迅速にインサイトを生み出すことが可能になります。一方で、個別の調査業務とデータプロダクトの自動生成との区別がより明確になります。そうして、与えられたリソースのレベルに応じて両者の間でより意識的に投資のバランスを取れるようになります。
  • 一般的に「ビッグデータ」という言葉はアナリティクスと同じ意味で使われることがありますが、DataOpsはビッグデータに限定されるものではなく、使用するデータのサイズや複雑さに左右されるものではありません。DataOpsはデータの規模を問わず、データアナリティクスのスピード、信頼性、および品質を向上させることを目的とした方法論であり、あらゆる規模のデータを持つ組織にとって有益なものとなります。

対象読者

 データサイエンスの成功には他部門との連携が欠かせません。そのため、データサイエンティストやマネージャー以外にもDataOpsを理解してもらう必要があります。データ部門やIT部門を担当する上級管理職、データチームをサポートするIT担当者、そしてデータエンジニアなども本書から示唆を得られるでしょう。

  • 高度なデータ分析を行う専門家:複雑な課題解決と機械学習やAIのアルゴリズムの活用に秀でたスキルを持つデータアナリティクスの専門家です。再現性とテスト容易性を備えたアジャイルな仕事の進め方や、データプロダクトのテストとデプロイの自動化、実験からのフィードバック収集と結果活用の手法を求めています。
  • アナリティクスマネージャー:データサイエンティストやチームリーダーの管理や仕事の優先順位付けを行い、監督する責任を担っています。ビジネス上のステークホルダーと連携しながら優先課題に注力するとともに、データやITリソースを提供する部署にとっての組織内の顧客でもあります。ビジネス上のステークホルダーと連携しながら優先課題に注力するとともに、業務スピードの向上と品質改善に向けてどこに注力すべきかを模索しています。
  • 最高情報責任者(CIO)、最高データ責任者(CDO)、最高分析責任者(CAO):データとデータドリブン型の意思決定を組織の最優先事項として位置付け、データ資産を最大限に活用することを目指しています。そのためには人材、プロセス、テクノロジーに関する戦略構築が欠かせません。また、データ分析チームが直面する課題に対処するとともに、そのチームの活動が組織全体に与える影響度を測定し、その結果をビジネス戦略に反映することを目指しています。
  • データチームを支援するデータエンジニアやIT担当者(デベロッパー、アーキテクト、データベース管理者):データアナリティクスやデータサイエンスのチームが必要なデータに対して規定された方法でアクセスできるようにします。また、データ品質向上、データの出どころの追跡性(データリネージ)の確保に尽力します。加えて、データプロダクトの本番環境への早期導入、スケーラビリティ確保、モニタリング機能の構築などを支援します。データプラットフォームを運用するにあたって、データサイエンティストやデータエンジニアとも連携を図ります。

本書の構成

 本書は大きく4つのパートで構成されています。各章を順番に読むことをおすすめしますが、興味のある章から読み始めても構いません。

 最初のパートではデータサイエンスを導入する際に直面する課題を挙げ、データ戦略の重要性とその策定の必要性を明らかにします。データサイエンスのプロジェクトを成功させる際の問題や課題を示し、アナリティクスがなぜそれほど難しいのかを説明します。

 2つ目のパートではデータサイエンスにリーンシンキングとアジャイル手法を導入する方法を説明します。継続的な改善における測定とフィードバックの重要性、そしてリーンシンキングとアジャイル手法の必要性を説明します。また、DataOpsの道を切り開く方法についても説明します。データサイエンスによる価値提供を実現する際の課題は「ムダ」「ビジネスとの不整合」「アウトプットのスケーラビリティを実現することの難しさ」の3つに起因しています。これらの課題は製造業やソフトウェア開発分野のアイデアを応用することで解決できます。

 3つ目のパートではテストによるデータへの信頼やデータガバナンスによるユーザーへの信頼を獲得する方法を説明します。再現性のあるワークフローとDevOpsによる迅速な改善によってスピードと規模を拡大する方法を説明します。

 4つ目のパートではアジリティ(俊敏性)とセルフサービスというDataOpsの目標を実現するにあたって、それをサポートするテクノロジーを評価する際の推奨事項を説明します。DataOpsの導入を成功させ、コラボレーションを強化するための組織面の解決策についても説明します。最終章ではDataOpsの手法を導入する際の推奨ステップを紹介して締めくくります。

実践DataOps

Amazon  SEshop  その他

 
実践DataOps

著者:Atwal Harvinder
翻訳:丸山大輔、松田和雄、關哲也
発売日:2024年5月28日(火)
定価:3,828円(本体3,480円+税10%)

本書について

本書は、20年以上にわたってデータアナリティクスの現場で活躍してきた著者が提案する、データ利活用を根本から効率化するための方法論です。あなたの組織でもデータ戦略の価値を最大化しましょう!

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
翔泳社の本連載記事一覧

もっと読む

この記事の著者

渡部 拓也(ワタナベ タクヤ)

 翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/19552 2024/06/04 07:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング