CodeZine(コードジン)

特集ページ一覧

機械学習から価値を生みだすために企業に必要な「データ分析基盤」とは?【デブサミ2020】

【13-C-7】InterSystems IRIS Data Platformで高度なデータ分析のための基盤を整備しよう

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加
2020/03/11 12:00

 機械学習(ML)や人工知能(AI)に対する社会的な関心が高まる中、企業は多様なデータの分析に積極的に取り組んでいる。かつては敷居の高かった、高度なアルゴリズムを利用した分析やモデル作成が、RやPythonなどのライブラリを使って、従来よりも手軽に行えるようになった。しかし同時に、分析用データベース整備の効率化や、データサイエンススキルの不足への対処をどうするかといった課題も生みだしている。インターシステムズジャパンの堀田稔氏は「InterSystems IRIS Data Platformで高度なデータ分析のための基盤を整備しよう」と題したセッションで、同社の「InterSystems IRIS Data Platform」(以下、IRIS)が、企業のデータ分析にまつわるさまざまな課題を、どのようなアプローチで解決しようとしているのかについて紹介した。

目次
インターシステムズジャパン株式会社 SEマネージャー 堀田 稔氏
インターシステムズジャパン株式会社 SEマネージャー 堀田 稔氏

「データ分析」の課題とともに進化してきたプロダクト

 インターシステムズは、1978年に米国マサチューセッツ州ケンブリッジで設立された企業である。RDBMSがデータベースの主流となる以前に、木構造で高速にデータを取り扱える「階層型データベース」をコアテクノロジーとして、主に企業の業務システムにおいて、そのバックエンドを支えるデータソリューションを提供してきた。

 テクノロジートレンドの変化に合わせて、同社が提供するソリューション構成やブランドも変遷を繰り返してきたが、階層型データベースの技術を中核に「データをより高速に、よりシンプルに扱うためのプロダクトを作る」といったビジョンは一貫していたという。

 現在はワールドワイドで1500社を超えるパートナーと共にビジネスを展開しており、日本においても、医療、金融、物流をはじめ、多様な業界でインターシステムズのソリューションが採用されている。また近年では、AIや機械学習といった技術領域が、デベロッパーやエンジニアの関心を集めていることを受け、同社では「READY SET CODE」というキャッチフレーズのもと、技術者にも評価されるプロダクト開発と周辺環境の整備にも注力しているそうだ。

 堀田氏は、セッションの前半において、企業における「データ分析基盤」の歴史を簡単に振り返った。事業を展開するにあたって「基幹系」と呼ばれる情報システムが不可欠となってからしばらくの後、そのデータベースに蓄積されたデータを集計、分析することでビジネスに生かしたいというニーズが生まれる。そこで登場したのが、分析に使うデータを基幹系データベースから抜き出し、ETL(Extract、Transform、Load)処理を通じて「データウェアハウス」(DWH)あるいは、より小規模な「データマート」を構築するといった手法だ。当時において、この手法には合理性があった一方で、時代の変化に伴い、いくつかの問題も生まれたと堀田氏は指摘する。

 問題のひとつは「アジリティ」(敏捷性)だ。年次から月次、週次、日次と、より短いスパンでデータ分析を行いたいというニーズが出てくる一方で、従来のETLによるデータウェアハウス、あるいはデータマートの構築には手間と時間がかかり、リアルタイム性を高めていくことが難しくなっている。

 別の問題は「データの多様化と大規模化」だ。近年では、業務システムのトランザクショナルなデータだけでなく、ログデータ、テキストデータ、メディアデータなどのいわゆる「スキーマレス」なデータに対する分析ニーズも高まっている。こうした、従来型のDWHに容易に投入できない「ビッグデータ」を蓄積、管理、分析していくため仕組みとしてGoogle Hadoop、Apache HBase、Apache Hiveといった新たな技術が次々と生みだされてきた。

 同時に、こうしたビッグデータ活用に向けた取り組みそのものが、テクノロジーを中心とした「個別最適」に陥る危険性をはらんでいると堀田氏は指摘する。DWHやデータマートの乱立は「データのサイロ化」を生みだし、データ品質の維持やガバナンスの確保を難しくしている問題も生まれた。

 このような状況の改善を目指して登場したのが「データレイク」と呼ばれる概念だ。データレイクでは、多様な技術要素を統合することで、さまざまなシステムが生みだすデータを統合的に管理し、処理の自動化などを通じて「データ発生」から「保存」「活用」「アクション」といったサイクルを効率的に回すアーキテクチャの実現を標ぼうしている。

 「『データ負債』という言葉があるが、蓄積されたデータは、質が担保されず活用されなければ、企業にとっては『負債』だ。それをどのように『資産』に変えていくかが、データ分析における課題である。機械学習やAIなども、このようなアーキテクチャがなければ実用化は難しい」(堀田氏)

 こうした「データ分析基盤」にまつわる歴史は、40年以上をかけてインターシステムズの製品がたどってきた変遷と強く結びついている。信頼性の高い階層型データベースを核に、スケーラビリティの向上、SQLアクセスのサポート、オブジェクトストアやNoSQL、BIやNLPといったさまざまなデータに対するニーズへの対応、データ変換や実行システムへの落とし込みといったプロセスの自動化、Pythonのような外部の技術と連携できるオープン性などを段階的に実現し、積み重ねてきた。その最新の成果が、データ分析基盤である「InterSystems IRIS」だという。

階層型データベースをコアにデータ分析に求められる機能を積み上げてきた「IRIS」
階層型データベースをコアにデータ分析に求められる機能を積み上げてきた「IRIS」

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • CodeZine編集部(コードジンヘンシュウブ)

    CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

バックナンバー

連載:【デブサミ2020】セッションレポート

もっと読む

All contents copyright © 2005-2020 Shoeisha Co., Ltd. All rights reserved. ver.1.5