【デブサミ2018】セッションレポート（AD）

これがOSSを活用したデータアナリティクス基盤のベストプラクティス――事例とデモを交えて紹介された「イマドキ」のビックデータ活用【デブサミ2018】

【15-B-2】ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

2018/03/12 14:00

ポスト

　AIやロボティクスなど世間が華やかなキーワードで賑わう昨今、以前の輝きを完全に失った「ビッグデータ」は、ハイプ・サイクルの幻滅期の底に到達したとされ、話題に上ることも少なくなった。だが、幻滅期とは過度な期待がなくなり、エンタープライズ市場も形成され、いい意味で技術的に枯れた安定期にあることを意味する。つまり、地に足のついた現実的な活用方法を模索する最高のタイミングということだ。改めて、データを主軸にイノベーションを掘り起こすシステムはどうすれば構築できるのだろうか。日本オラクルの立山重幸氏が、Apache HadoopやApache Spark、Notebook、アナリティクスツールを組み合わせた「イマドキ」のデータ活用基盤について、基本的な活用事例や本格的な応用事例などを交えながら解説した。

ポスト

講演資料：ストリームとバッチを融合したBigData Analytics ～事例とデモから見えてくる、これからのデータ活用のかたち～

日本オラクル株式会社クラウドプラットフォームソリューション統括 - Cloud Platform ソリューション本部 - Big Data & Analytics ソリューション部 Principal Sales Consultant 立山重幸氏 — 日本オラクル株式会社クラウドプラットフォームソリューション統括 - Cloud Platform ソリューション本部 -
Big Data & Analytics ソリューション部 Principal Sales Consultant 立山重幸氏

成功事例で読み解くイノベーションに必要な分析基盤

　イノベーションを起こした企業の例として、タクシー業界を変革したUberがよく取り上げられる。Uberの成功のポイントは何か。それは既存ビジネスを新しい視点から捉え直し、十分な投資と市場機会の下、ITとデータを駆使して新たな価値観や利便性向上を実現したことにある。

　もっとも、こうした柔軟かつ機動力のある展開は新興企業だからこそ。既存の基幹業務を回しながらイノベーションを起こすコストや体力は、そう簡単には確保できない。そう思われがちだ。

　「しかし、それは間違っている。イノベーションは新興企業だけのものではない」

　日本オラクルの立山重幸氏はそう断言する。やるべきことは、従来のシステム基盤のコストをうまく削減し、捻出したコストをDevOpsやデータドリブンの投資に変えることだ。特に肝となるのが、データドリブンだ。

　データドリブンの考え方は、ビッグデータがバズワード的な注目を集めた際に、ビジネスアナリティクスと併せてその重要性は語られていた。現実的に役立つ面がはっきり見えるようになり、またUberなどの成功事例が大きく取り上げられた結果、データ分析基盤の現実解を模索、本格的に検討・導入する方向へと企業は動き出している。

　データドリブンな分析基盤のスタンダードとしては、「Apache Hadoop」（以下、Hadoop）やデータベースでデータの入れ物を作り、PythonやRで機械学習するといった構成だろう。また、最近はOSSの分散メッセージングシステム「Apache Kafka」の登場でストリームデータの分析を取り入れたアナリティクスも熱い。

　まずはスタンダードな構成の事例として、立山氏は同社のOracle DatabaseとHadoopを組み合わせ、新たなサービス開発に成功したLa CaixaとTelefonicaを紹介した。

　La Caixaは、スペインの大手銀行だ。「Oracle Database」とHadoopを導入した同社はバッチをメインフレームからHadoopにオフロードし、メインフレームコストを30％、処理時間を50％それぞれ削減した。さらに、メインフレームに眠ったままのデータ、顧客情報、決済情報、SNSデータなどもHadoopに取り込んで分析した結果、顧客の顔が見えてきた。いわゆる「顧客360°ビュー」の実現だ。こうして同社は新たな機能をATMに追加。例えば、毎月給料日にATMで10ユーロおろす利用者がいる場合、翌月その利用者がATMへ行くと、「Get 10EUR」と書かれたボタンを画面に表示。また、同社の取引先で顧客情報に関連するクーポンも表示するといった具合だ。

　スペインおよび南米最大の通信事業者Telefonicaも、Oracle DatabaseとHadoopの組み合わせでイノベーションを起こした。同社は買収を繰り返したことで分散してしまったデータを集約。システムコストを1/3にまで削減した。さらには、集約した情報から通信や通話履歴などの顧客特性を映画配信サイトのパーソナライズレコメンデーションに活用。その結果、34％がオンライン広告をクリックし、61%が購入、収益拡大を実現したという。

データドリブンの分析基盤で成功するための4つのポイント

　これらの事例から「データドリブンのイノベーションを成功させるには、4つの仕掛けが必要であることが分かる」と立山氏は述べる。

必要なデータを疎結合に収集する
適材適所でデータマネジメントを実施する
イノベーションに向けた実験、検証、分析を行う仕組みを構築する
既存システムへ迅速に反映させる

　1つ目の「必要なデータを疎結合に収集する」は、Apache Kafkaをハブとして、上流システムとデータレイクの関係を1：1に変えるという考え方だ。

　データレイクにデータを入れるには、データレイク側から上流システムにデータ取得の要求をすることになる。しかし、上流システム側からすると、その都度データの抽出を要求されてうんざりし、一方のデータレイク側は上流システムに気を遣いながらデータをもらうのがつらい。そこで、Apache Kafkaを間に挟んでデータを疎結合に収集する構成にすれば、N：Nから1：1の関係になり、互いのストレスを減らしてやり取りの管理がしやすくなる。

　「低レイテンシーで拡張性があり、無停止でクラスタを増やせるのが最大の特徴。また、レプリケーションなど耐障害性の設計がされており、堅牢かつ柔軟、安価に使えることから、データハブとして導入されるケースは増えている」

　2つ目の「適材適所でデータマネジメントを実施する」について、立山氏はデータベースを管理するのではなくデータそのものをマネジメントしようという考え方に基づき、用途や目的、コストの最適化などの観点で、適材適所でデータのすみ分けを行うと説明した。

　例えばHadoopの場合、スキーマなしでデータを格納できるが、オーバーヘッドが大きいために小さなデータの処理は遅いといった短所がある。一方でNoSQLは小さなデータを大量かつ素早く扱うことができるが、レコードをまたいだ処理が苦手で分析用途には適していない。データウェアハウス（以下、DWH）はトランザクション処理やクエリ性能が高く、オンライントランザクション処理（OLTP）からDWHまで万能選手といえるが、コストがかかる。

　こうした長所と短所をきちんと理解し、目的とデータ特性に応じて、それぞれどんなデータを配置するか考える。例えばELT処理・データ加工であれば、Hadoopに加工前の生データ、DWHには加工後のデータを配置、データ分析であれば明細データや経年データをHadoopに、サマリデータやアクティブデータをDWHに配置するといった具合だ。

　3つ目の「イノベーションに向けた実験、検証、分析を行う仕組みを構築する」は、蓄積されたデータへ幅広いチームメンバーがアクセス可能で、自由かつ効率良く解析ができ、トライ＆エラーを短時間で何度も繰り返せる、そんな環境を用意するという意味だ。

　イノベーションに向けて多くの企業はビッグデータ推進室やAI戦略室、ディスカバリーラボを設置している。しかし、現状ではデータサイエンティスト個々人や少数のグループごとに分析基盤が存在し、そもそも専用ツールや解析言語は専門外の人間にとって難しく扱いづらい。

　そこで立山氏が提案するのは、データ調査や集計、可視化、チームメンバー間のコラボレーションなどを支援するNotebookだ。オラクルのNotebookは「Apache Zeppelin」を標準サポートし、間もなくリリース予定の「Oracle Autonomous Data Warehouse Cloud」の標準インターフェイスでも採用されている。レポート開発者やビジネスユーザーにも優しい設計が特長だ。

　最後の「既存システムへ迅速に反映させる」は、共通のアクセスインターフェイスを用意して異なるテクノロジーを集約することだ。そうすることで、SQLからさまざまなデータソースへアクセスできるようになり、分析モデルをそのまま利用、データが格納されている場所で処理を実施でき、性能や生産性、ポータビリティを確保できる。

バッチとストリーミングの融合を体感できるデモンストレーション

　解説後、よりイメージしやすくするために、立山氏はバッチとストリーミングを融合する分析基盤のデモを実施した。デモは、ニューヨークの自転車シェアリングのデータを活用し、「Oracle Event Hub Cloud」（Kafka PaaS）をハブに、「Oracle Big Data Cloud」（Spark PaaS）でデータ解析、「Oracle Storage Cloud Object Storage」にデータを入れる構成で用意された。

デモのコードはこちら（GitHub）

　デモでは、まず「Spark SQL」からデータの内容を確認する方法を紹介。その後、Kafka PaaSに流したデータを使って「Spark DStream」で地図にプロットし、利用者の乗車位置と下車位置を5秒ごとに可視化したり、年齢と性別の属性情報から利用時間を予測するモデルをRで作成したりと、基本的な分析をデモンストレーションした。

　そして、最後はApache Kafkaで収集した気象情報やバイク利用のリアルタイムデータを、「Oracle Big Data SQL」経由で「Oracle Advanced Analytics」に取り込み、予測モデルを適用するという、バッチデータとストリームデータを融合した分析方法を紹介した。

　オラクルではデータベースやOSSを組み合わせた、データアナリティクスのためのクラウド環境を用意しており、300ドル分を無料で試用できる。

　「イベントハブやビッグデータ処理であれば、3000時間分使える。ぜひこの機会に試していただければ幸いだ」

　立山氏はこう呼びかけ、セッションを締めくくった。