Databricks社のソリューションは準備工程の複雑さを解消する
こうした課題を解決してくれるのが、ビッグデータ分析基盤を提供するDatabricks社のソリューションだ。同社の提供する統合分析プラットフォームはAWSとAzure上で動作し、煩雑な前準備なしにすぐに利用できる。「分散処理を用いたデータの集計・整形」「クラスタリングや予測モデルの構築」「分析結果の可視化」といった作業を、簡単に実現できるようにしてくれるのだ。
パウロ氏はここから、「AI 3分クッキング」と題したデモンストレーションを開始。Databricks社の統合分析プラットフォームを用いることで、どれほど簡単に機械学習のモデルを作成できるかを解説していった。
分析に用いたデータセットは、自転車のライドシェアリングに関する情報だ。天気や季節、時間帯、平日・休日などといった各種項目をもとに、需要予測をするモデルをパウロ氏はつくり上げていく。機械学習に必要なステップは以下の7つ。このうち「データ収集」「データの前処理」については、本家の3分クッキングにちなんで「下ごしらえ済み」の状態からスタートしていった。
- データ収集
- データの前処理
- モデル選定
- 学習
- 評価
- ハイパーパラメータの調整
- 推論
デモンストレーションで用いられたのは、同社の「Notebooks」というサービスだ。マジックコマンドを用いることで、PythonやSQL、R、シェルスクリプト、Scalaなどのプログラムを「Notebooks」上で一元的に実行可能になっている。SQLでデータ取得した結果をPythonに受け渡すことや、Scalaで形態素解析した結果をRに受け渡すことも、全て「Notebooks」内で完結させることができる。
また、分析に必要なクラスターの作成・管理も「Notebooks」を通じて実施可能だ。オートスケーリングや不要クラスターの自動停止などにも対応しているため、クラスターのパフォーマンス最適化を行うことも容易である。
パウロ氏は「Notebooks」の各種機能を用いて、データの取り込みや前処理、モデル選定といった機械学習の各種プロセスをスムーズに実施していく。「AI 3分クッキング」という名の通り、短時間のうちに需要予測の結果を算出し、オーディエンスに披露した。
分析結果を表やグラフの形式で可視化することも、「Notebooks」を用いれば簡単に実現できる。観客は一様に、興味深そうな様子でデモンストレーションを眺めていた。
![Databricksが開催する各種ワークショップ](http://cz-cdn.shoeisha.jp/static/images/article/12043/12043_003.png)
「Databricksに興味を持っていただいた方は、ぜひ私たちと直接お会いしましょう。Databricksではビジネスユーザー向け、データエンジニア向け、データサイエンティスト向け、データアナリスト向けに、上図のワークショップを定期的に開催しています。私たちの技術が、みなさんのお役に立てればうれしいです」(パウロ氏)
特定の技術を一般社会に普及させるには「利用のハードルをいかに下げるか」が要となる。例えば各種フレームワークの登場なしには、Webアプリケーション開発はこれほど一般的にはならなかっただろう。
Databricks社のソリューションは、いわばAIや機械学習におけるフレームワークのような存在だ。準備工程の複雑さを解消することで、利用者がより「本質的な課題」に向き合うための手助けをしてくれる。同社のプラットフォームを活用し、より先進的なデータ活用を推進してみてはいかがだろうか。
お問い合わせ
Databricks Japan株式会社