「データ分析」の課題とともに進化してきたプロダクト
インターシステムズは、1978年に米国マサチューセッツ州ケンブリッジで設立された企業である。RDBMSがデータベースの主流となる以前に、木構造で高速にデータを取り扱える「階層型データベース」をコアテクノロジーとして、主に企業の業務システムにおいて、そのバックエンドを支えるデータソリューションを提供してきた。
テクノロジートレンドの変化に合わせて、同社が提供するソリューション構成やブランドも変遷を繰り返してきたが、階層型データベースの技術を中核に「データをより高速に、よりシンプルに扱うためのプロダクトを作る」といったビジョンは一貫していたという。
現在はワールドワイドで1500社を超えるパートナーと共にビジネスを展開しており、日本においても、医療、金融、物流をはじめ、多様な業界でインターシステムズのソリューションが採用されている。また近年では、AIや機械学習といった技術領域が、デベロッパーやエンジニアの関心を集めていることを受け、同社では「READY SET CODE」というキャッチフレーズのもと、技術者にも評価されるプロダクト開発と周辺環境の整備にも注力しているそうだ。
堀田氏は、セッションの前半において、企業における「データ分析基盤」の歴史を簡単に振り返った。事業を展開するにあたって「基幹系」と呼ばれる情報システムが不可欠となってからしばらくの後、そのデータベースに蓄積されたデータを集計、分析することでビジネスに生かしたいというニーズが生まれる。そこで登場したのが、分析に使うデータを基幹系データベースから抜き出し、ETL(Extract、Transform、Load)処理を通じて「データウェアハウス」(DWH)あるいは、より小規模な「データマート」を構築するといった手法だ。当時において、この手法には合理性があった一方で、時代の変化に伴い、いくつかの問題も生まれたと堀田氏は指摘する。
問題のひとつは「アジリティ」(敏捷性)だ。年次から月次、週次、日次と、より短いスパンでデータ分析を行いたいというニーズが出てくる一方で、従来のETLによるデータウェアハウス、あるいはデータマートの構築には手間と時間がかかり、リアルタイム性を高めていくことが難しくなっている。
別の問題は「データの多様化と大規模化」だ。近年では、業務システムのトランザクショナルなデータだけでなく、ログデータ、テキストデータ、メディアデータなどのいわゆる「スキーマレス」なデータに対する分析ニーズも高まっている。こうした、従来型のDWHに容易に投入できない「ビッグデータ」を蓄積、管理、分析していくため仕組みとしてGoogle Hadoop、Apache HBase、Apache Hiveといった新たな技術が次々と生みだされてきた。
同時に、こうしたビッグデータ活用に向けた取り組みそのものが、テクノロジーを中心とした「個別最適」に陥る危険性をはらんでいると堀田氏は指摘する。DWHやデータマートの乱立は「データのサイロ化」を生みだし、データ品質の維持やガバナンスの確保を難しくしている問題も生まれた。
このような状況の改善を目指して登場したのが「データレイク」と呼ばれる概念だ。データレイクでは、多様な技術要素を統合することで、さまざまなシステムが生みだすデータを統合的に管理し、処理の自動化などを通じて「データ発生」から「保存」「活用」「アクション」といったサイクルを効率的に回すアーキテクチャの実現を標ぼうしている。
「『データ負債』という言葉があるが、蓄積されたデータは、質が担保されず活用されなければ、企業にとっては『負債』だ。それをどのように『資産』に変えていくかが、データ分析における課題である。機械学習やAIなども、このようなアーキテクチャがなければ実用化は難しい」(堀田氏)
こうした「データ分析基盤」にまつわる歴史は、40年以上をかけてインターシステムズの製品がたどってきた変遷と強く結びついている。信頼性の高い階層型データベースを核に、スケーラビリティの向上、SQLアクセスのサポート、オブジェクトストアやNoSQL、BIやNLPといったさまざまなデータに対するニーズへの対応、データ変換や実行システムへの落とし込みといったプロセスの自動化、Pythonのような外部の技術と連携できるオープン性などを段階的に実現し、積み重ねてきた。その最新の成果が、データ分析基盤である「InterSystems IRIS」だという。