ビッグデータ活用を阻む課題
今、多くの企業がビッグデータ活用の取り組みを始めています。クラウド、IoT、AIなどの技術の進化が後押しし、現在では先行していた金融、製造、流通に限らず、多種多様な業種で事例が増えています。
一方で、「どこから始めたらよいかわからない」「始めてみたものの中途で挫折した」といった声もたくさん挙がっています。また、これまでの取り組みは「データをどこへ、どのように収集するか」に主眼を置くものがほとんどで、「これまでにはない洞察(インサイト)をいち早く得て、新しい価値・ビジネスの創造につなげていく」という、ビッグデータ活用の本来の目的が後回しになっているようです。
データを活用してビジネスを変革へと導いていく過程では、Chief Data Officer(CDO)という新しい責任者の下、データ活用に関わる4つの専門職(データエンジニア、データサイエンティスト、ビジネスアナリスト、アプリケーション開発者)がコラボレーション(連携・協働)して、ビッグデータ活用のサイクルを迅速に回していくことが求められます。
ところが、以下に紹介する2つの課題がそれを阻みます。
データ分析基盤の構築が難しい
ビッグデータの活用は一度で終わるわけではありません。データを収集し、必要なデータを抽出して、分析した結果を活用するという作業を何度も行うことになります。そのつど抽出するデータや分析方法、用途が異なるはずであり、作業の内容も毎回同じにはならないでしょう。さらに、必要と思われたときに迅速に実施できなければ、活用の機会を逸し、作業自体が無駄になってしまいます。
ビッグデータ活用を迅速に、かつ意図したとおりに継続して実施するためには、データの収集、抽出、分析などの作業の自動化やカスタマイズを簡易化できるデータ分析基盤の構築が必要です。当然ながら、絶え間なく増え続けるビッグデータの分析基盤を、全てオンプレミスで構築するには大変なコスト・手間がかかります。クラウドが提供するビッグデータ関連サービスを利用するにしても、ある程度のコスト・手間は必要です。
また、ビッグデータ活用では、分析処理の分散コンピューティング基盤であるApache Hadoop(以下、Hadoop)やApache Spark(以下、Spark)、データ分析で使用されることの多いRやPythonといったプログラミング言語など、さまざまなオープンソースソフトウェア(以下、OSS)を利用するのが一般的です。
つまり、ビッグデータ活用を始めるには、OSSを使ってクラウド上でデータ分析基盤を構築し、それを使いこなすための知見やスキルが必要なのです。そのため、OSS自体は無償ですが、構築・運用管理にはそれなりのコスト・手間がやはりかかります。
職務ごとに環境が分断されてコラボレーションができない
ビッグデータ推進の課題の一つとして、データサイエンティストの不足が挙げられます。データサイエンティストとは、統計学、コンピュータ科学、情報処理の知識をもち、さらにビジネスの課題を的確に理解して、どのようなデータが必要であり、どのように分析するかを判断し、分析モデルを作成する専門職のことです。世界規模での不足が問題視されており、その育成が急務とされています。
では、データサイエンティストを確保すればよいのかというと、それだけでは済みません。ビッグデータ活用を実施するには、データサイエンティストのほか、データエンジニア、ビジネスアナリスト、アプリケーション開発者という、データ活用に関わる4つの専門職がコラボレーションする必要があります。しかし、現実にはデータ分析基盤の構築が難しい上、組織・体制の問題、ガバナンスの不足など、職務ごとに分断された環境での作業を強いられる状況が散見されます。これでは、迅速かつ継続的なビッグデータ活用は見込めず、十分な成果を挙げることはできません。
このようなビッグデータ活用に伴う高い障壁・課題のクリアを支援するため、IBMは、ビッグデータ活用を手軽に、そして継続的に実施可能なクラウドベースのデータ分析基盤として「IBM Watson Data Platform」(以下、Watson Data Platform)の提供を開始しました。次ページからは、Watson Data Platformで何が実現されるのか、どう使うのかについて説明していきます。
Watson Data Platformを試したい・詳しく知りたい方は
本稿で紹介しているData Science Experienceとそのデータ分析サンプルをはじめ、Watson Data Platformが提供する各種ツール・サンプルを、下記のWebサイトで皆さんにもお試しいただけます。詳細な資料なども配付していますので、ぜひご覧ください!