【デブサミ2020】セッションレポート（AD）

機械学習から価値を生みだすために企業に必要な「データ分析基盤」とは？【デブサミ2020】

【13-C-7】InterSystems IRIS Data Platformで高度なデータ分析のための基盤を整備しよう

2020/03/11 12:00

ポスト

　機械学習（ML）や人工知能（AI）に対する社会的な関心が高まる中、企業は多様なデータの分析に積極的に取り組んでいる。かつては敷居の高かった、高度なアルゴリズムを利用した分析やモデル作成が、RやPythonなどのライブラリを使って、従来よりも手軽に行えるようになった。しかし同時に、分析用データベース整備の効率化や、データサイエンススキルの不足への対処をどうするかといった課題も生みだしている。インターシステムズジャパンの堀田稔氏は「InterSystems IRIS Data Platformで高度なデータ分析のための基盤を整備しよう」と題したセッションで、同社の「InterSystems IRIS Data Platform」（以下、IRIS）が、企業のデータ分析にまつわるさまざまな課題を、どのようなアプローチで解決しようとしているのかについて紹介した。

ポスト

「データ分析」の課題とともに進化してきたプロダクト

　インターシステムズは、1978年に米国マサチューセッツ州ケンブリッジで設立された企業である。RDBMSがデータベースの主流となる以前に、木構造で高速にデータを取り扱える「階層型データベース」をコアテクノロジーとして、主に企業の業務システムにおいて、そのバックエンドを支えるデータソリューションを提供してきた。

　テクノロジートレンドの変化に合わせて、同社が提供するソリューション構成やブランドも変遷を繰り返してきたが、階層型データベースの技術を中核に「データをより高速に、よりシンプルに扱うためのプロダクトを作る」といったビジョンは一貫していたという。

　現在はワールドワイドで1500社を超えるパートナーと共にビジネスを展開しており、日本においても、医療、金融、物流をはじめ、多様な業界でインターシステムズのソリューションが採用されている。また近年では、AIや機械学習といった技術領域が、デベロッパーやエンジニアの関心を集めていることを受け、同社では「READY SET CODE」というキャッチフレーズのもと、技術者にも評価されるプロダクト開発と周辺環境の整備にも注力しているそうだ。

　堀田氏は、セッションの前半において、企業における「データ分析基盤」の歴史を簡単に振り返った。事業を展開するにあたって「基幹系」と呼ばれる情報システムが不可欠となってからしばらくの後、そのデータベースに蓄積されたデータを集計、分析することでビジネスに生かしたいというニーズが生まれる。そこで登場したのが、分析に使うデータを基幹系データベースから抜き出し、ETL（Extract、Transform、Load）処理を通じて「データウェアハウス」（DWH）あるいは、より小規模な「データマート」を構築するといった手法だ。当時において、この手法には合理性があった一方で、時代の変化に伴い、いくつかの問題も生まれたと堀田氏は指摘する。

　問題のひとつは「アジリティ」（敏捷性）だ。年次から月次、週次、日次と、より短いスパンでデータ分析を行いたいというニーズが出てくる一方で、従来のETLによるデータウェアハウス、あるいはデータマートの構築には手間と時間がかかり、リアルタイム性を高めていくことが難しくなっている。

　別の問題は「データの多様化と大規模化」だ。近年では、業務システムのトランザクショナルなデータだけでなく、ログデータ、テキストデータ、メディアデータなどのいわゆる「スキーマレス」なデータに対する分析ニーズも高まっている。こうした、従来型のDWHに容易に投入できない「ビッグデータ」を蓄積、管理、分析していくため仕組みとしてGoogle Hadoop、Apache HBase、Apache Hiveといった新たな技術が次々と生みだされてきた。

　同時に、こうしたビッグデータ活用に向けた取り組みそのものが、テクノロジーを中心とした「個別最適」に陥る危険性をはらんでいると堀田氏は指摘する。DWHやデータマートの乱立は「データのサイロ化」を生みだし、データ品質の維持やガバナンスの確保を難しくしている問題も生まれた。

　このような状況の改善を目指して登場したのが「データレイク」と呼ばれる概念だ。データレイクでは、多様な技術要素を統合することで、さまざまなシステムが生みだすデータを統合的に管理し、処理の自動化などを通じて「データ発生」から「保存」「活用」「アクション」といったサイクルを効率的に回すアーキテクチャの実現を標ぼうしている。

　「『データ負債』という言葉があるが、蓄積されたデータは、質が担保されず活用されなければ、企業にとっては『負債』だ。それをどのように『資産』に変えていくかが、データ分析における課題である。機械学習やAIなども、このようなアーキテクチャがなければ実用化は難しい」（堀田氏）

　こうした「データ分析基盤」にまつわる歴史は、40年以上をかけてインターシステムズの製品がたどってきた変遷と強く結びついている。信頼性の高い階層型データベースを核に、スケーラビリティの向上、SQLアクセスのサポート、オブジェクトストアやNoSQL、BIやNLPといったさまざまなデータに対するニーズへの対応、データ変換や実行システムへの落とし込みといったプロセスの自動化、Pythonのような外部の技術と連携できるオープン性などを段階的に実現し、積み重ねてきた。その最新の成果が、データ分析基盤である「InterSystems IRIS」だという。

階層型データベースをコアにデータ分析に求められる機能を積み上げてきた「IRIS」

IRISで実現する「いろんなデータとさまざまな役割をうまくつなぐ」環境とは

　ここからは、主にビジネスの中で「機械学習」を実践していくためのデータ分析基盤として、IRISがどのように活用できるかが、具体的なシナリオをもとに紹介された。大規模なデータ分析基盤を運用していくにあたって、それぞれに役割を持ったメンバーからなる「データ分析チーム」の存在が不可欠だ。メンバーとしては、ビジネス面での「マネージャー」や「ビジネスアナリスト」に加え、機械学習の専門知識を持つ「データサイエンティスト」やデータを扱う専門家である「データギーク」、より技術的な立ち位置でインフラを整えたり、プログラムを書いたり、モデルを作成したりする「データエンジニア」「デベロッパー」「データモデラー」などが想定される。

　こうしたチームでのデータ活用に生まれがちな課題は、数理モデルとビジネスプロセスとの連携がスムーズにいかなかったり、モデリング環境からソースデータへの容易で直接的なアクセス手段がなかったりすることだ。チームでは「データサイエンティスト」「データモデラー」「データエンジニア」「デベロッパー」といったメンバーが連携する領域となる。それぞれの領域で使われるツールや環境が異なる場合、その連携の効率化が難しく、こうした課題が生まれがちになる。

　IRISでは、データベースと、データ活用に関わる各領域間の相互運用性を高めるためのツールがセットで提供されている。具体的には、ビジュアルなツールを使い、ルールに沿って業務システム内のデータを変換し、IRISのデータベースに格納して、それをどのようにメンバー間に流していくかといったワークフローを構築できる。ワークフローはIRISのツール内でクラスとして定義、実行されるため、自動化や再利用なども容易だ。

　また、主にPythonを利用するデータモデラーが、ソースデータに容易にアクセスできるようにする仕組みとして、IRISでは「ML Toolkit」と呼ばれるツールを用意している。ML Toolkitは、IRISからPython、Rといった言語にネイティブ接続するためのライブラリ群となっている。IRISは「ObjectScript」と呼ばれる独自のスクリプティング環境を持っているが、そのAPIを通じてPythonのコードを呼び出す仕組みを作り込むことができる。また、ML Toolkitによって、ノート形式でデータ分析の実行や結果の記録を行えるツールとして人気が高い「Jupyter Notebook」から、IRIS上のビジネスプロセスを編集することも可能になる。

　さらに、現在開発中の「Analytic Workflows」というコンポーネントでは、Python、R、Sparkなどの言語、SageMakerやTensorFlowといった機械学習フレームワークなどのツール群と、IRISとの相互運用性を実現することを目指しているそうだ。Analytic Workflowsでは、データロードや突合、保存といった基本的な処理に加え、ツール間連携の自動化、ワークフロー全体の監視機能などを提供し、メンバー間での連携プロセスやデータタスクの効率的な管理を可能にする。

　「データ分析チーム」において想定されるそのほかの課題としては、構築したモデルのアプリケーションへの実装がスムーズにいかなかったり、急激に増加しているモデル構築のニーズに対してデータサイエンティストのリソースが足りていなかったりといったものがある。IRISでは、これらの課題に対する解決策も用意している。IRISでは、統計分析や機械学習のデータモデルを表現するXML規格である「PMML（Predictive Model Markup Language）」を読み込むことができる。SparkやR、TensorFlowといった環境で作られたモデルをPMML形式でインポートすることで、IRIS単体で実データに対する結果を算出することが可能だ。

　また、現在プレビュー版が提供されている「Integrated ML」と呼ばれるツールでは、データサイエンスのスキルが不足している組織においても、機械学習を活用できる仕組みを提供するという。「Integrated ML」は、「QuickML」という名称で開発が行われていたもので、より一般的なSQL風の構文を使って、基本的な機械学習のタスクを実行できるようにするものだ。特徴量エンジニアリングやモデル選択、SQLオプティマイザによるパフォーマンスの最適化などは、ツール側で自動的に実行される。近年、機械学習プロセスの自動化や活用を容易にするための技術として注目されている「AutoML」の概念を、IRIS上で具現化することを目指して開発されている。

　最後に堀田氏は「AIや機械学習といった領域に関心が集まる中、企業にとっては、その活用に必要なデータを柔軟に取り扱える分析基盤の必要性がさらに増している。データには、さまざまなタイプがあり、組織の中にはいろんな役割を持った人がいる。IRISでは、多彩な機能や周辺ツールを通じて、それらすべてをうまくつなげられるデータ分析基盤を提供したいと考えている」と述べ、セッションを終えた。