IRISで実現する「いろんなデータとさまざまな役割をうまくつなぐ」環境とは
ここからは、主にビジネスの中で「機械学習」を実践していくためのデータ分析基盤として、IRISがどのように活用できるかが、具体的なシナリオをもとに紹介された。大規模なデータ分析基盤を運用していくにあたって、それぞれに役割を持ったメンバーからなる「データ分析チーム」の存在が不可欠だ。メンバーとしては、ビジネス面での「マネージャー」や「ビジネスアナリスト」に加え、機械学習の専門知識を持つ「データサイエンティスト」やデータを扱う専門家である「データギーク」、より技術的な立ち位置でインフラを整えたり、プログラムを書いたり、モデルを作成したりする「データエンジニア」「デベロッパー」「データモデラー」などが想定される。
こうしたチームでのデータ活用に生まれがちな課題は、数理モデルとビジネスプロセスとの連携がスムーズにいかなかったり、モデリング環境からソースデータへの容易で直接的なアクセス手段がなかったりすることだ。チームでは「データサイエンティスト」「データモデラー」「データエンジニア」「デベロッパー」といったメンバーが連携する領域となる。それぞれの領域で使われるツールや環境が異なる場合、その連携の効率化が難しく、こうした課題が生まれがちになる。
IRISでは、データベースと、データ活用に関わる各領域間の相互運用性を高めるためのツールがセットで提供されている。具体的には、ビジュアルなツールを使い、ルールに沿って業務システム内のデータを変換し、IRISのデータベースに格納して、それをどのようにメンバー間に流していくかといったワークフローを構築できる。ワークフローはIRISのツール内でクラスとして定義、実行されるため、自動化や再利用なども容易だ。
また、主にPythonを利用するデータモデラーが、ソースデータに容易にアクセスできるようにする仕組みとして、IRISでは「ML Toolkit」と呼ばれるツールを用意している。ML Toolkitは、IRISからPython、Rといった言語にネイティブ接続するためのライブラリ群となっている。IRISは「ObjectScript」と呼ばれる独自のスクリプティング環境を持っているが、そのAPIを通じてPythonのコードを呼び出す仕組みを作り込むことができる。また、ML Toolkitによって、ノート形式でデータ分析の実行や結果の記録を行えるツールとして人気が高い「Jupyter Notebook」から、IRIS上のビジネスプロセスを編集することも可能になる。
さらに、現在開発中の「Analytic Workflows」というコンポーネントでは、Python、R、Sparkなどの言語、SageMakerやTensorFlowといった機械学習フレームワークなどのツール群と、IRISとの相互運用性を実現することを目指しているそうだ。Analytic Workflowsでは、データロードや突合、保存といった基本的な処理に加え、ツール間連携の自動化、ワークフロー全体の監視機能などを提供し、メンバー間での連携プロセスやデータタスクの効率的な管理を可能にする。
「データ分析チーム」において想定されるそのほかの課題としては、構築したモデルのアプリケーションへの実装がスムーズにいかなかったり、急激に増加しているモデル構築のニーズに対してデータサイエンティストのリソースが足りていなかったりといったものがある。IRISでは、これらの課題に対する解決策も用意している。IRISでは、統計分析や機械学習のデータモデルを表現するXML規格である「PMML(Predictive Model Markup Language)」を読み込むことができる。SparkやR、TensorFlowといった環境で作られたモデルをPMML形式でインポートすることで、IRIS単体で実データに対する結果を算出することが可能だ。
また、現在プレビュー版が提供されている「Integrated ML」と呼ばれるツールでは、データサイエンスのスキルが不足している組織においても、機械学習を活用できる仕組みを提供するという。「Integrated ML」は、「QuickML」という名称で開発が行われていたもので、より一般的なSQL風の構文を使って、基本的な機械学習のタスクを実行できるようにするものだ。特徴量エンジニアリングやモデル選択、SQLオプティマイザによるパフォーマンスの最適化などは、ツール側で自動的に実行される。近年、機械学習プロセスの自動化や活用を容易にするための技術として注目されている「AutoML」の概念を、IRIS上で具現化することを目指して開発されている。
最後に堀田氏は「AIや機械学習といった領域に関心が集まる中、企業にとっては、その活用に必要なデータを柔軟に取り扱える分析基盤の必要性がさらに増している。データには、さまざまなタイプがあり、組織の中にはいろんな役割を持った人がいる。IRISでは、多彩な機能や周辺ツールを通じて、それらすべてをうまくつなげられるデータ分析基盤を提供したいと考えている」と述べ、セッションを終えた。
お問い合わせ
インターシステムズジャパン株式会社
関連情報