SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

【デブサミ2020】セッションレポート (AD)

機械学習から価値を生みだすために企業に必要な「データ分析基盤」とは?【デブサミ2020】

【13-C-7】InterSystems IRIS Data Platformで高度なデータ分析のための基盤を整備しよう

  • X ポスト
  • このエントリーをはてなブックマークに追加

IRISで実現する「いろんなデータとさまざまな役割をうまくつなぐ」環境とは

 ここからは、主にビジネスの中で「機械学習」を実践していくためのデータ分析基盤として、IRISがどのように活用できるかが、具体的なシナリオをもとに紹介された。大規模なデータ分析基盤を運用していくにあたって、それぞれに役割を持ったメンバーからなる「データ分析チーム」の存在が不可欠だ。メンバーとしては、ビジネス面での「マネージャー」や「ビジネスアナリスト」に加え、機械学習の専門知識を持つ「データサイエンティスト」やデータを扱う専門家である「データギーク」、より技術的な立ち位置でインフラを整えたり、プログラムを書いたり、モデルを作成したりする「データエンジニア」「デベロッパー」「データモデラー」などが想定される。

 こうしたチームでのデータ活用に生まれがちな課題は、数理モデルとビジネスプロセスとの連携がスムーズにいかなかったり、モデリング環境からソースデータへの容易で直接的なアクセス手段がなかったりすることだ。チームでは「データサイエンティスト」「データモデラー」「データエンジニア」「デベロッパー」といったメンバーが連携する領域となる。それぞれの領域で使われるツールや環境が異なる場合、その連携の効率化が難しく、こうした課題が生まれがちになる。

 IRISでは、データベースと、データ活用に関わる各領域間の相互運用性を高めるためのツールがセットで提供されている。具体的には、ビジュアルなツールを使い、ルールに沿って業務システム内のデータを変換し、IRISのデータベースに格納して、それをどのようにメンバー間に流していくかといったワークフローを構築できる。ワークフローはIRISのツール内でクラスとして定義、実行されるため、自動化や再利用なども容易だ。

 また、主にPythonを利用するデータモデラーが、ソースデータに容易にアクセスできるようにする仕組みとして、IRISでは「ML Toolkit」と呼ばれるツールを用意している。ML Toolkitは、IRISからPython、Rといった言語にネイティブ接続するためのライブラリ群となっている。IRISは「ObjectScript」と呼ばれる独自のスクリプティング環境を持っているが、そのAPIを通じてPythonのコードを呼び出す仕組みを作り込むことができる。また、ML Toolkitによって、ノート形式でデータ分析の実行や結果の記録を行えるツールとして人気が高い「Jupyter Notebook」から、IRIS上のビジネスプロセスを編集することも可能になる。

 さらに、現在開発中の「Analytic Workflows」というコンポーネントでは、Python、R、Sparkなどの言語、SageMakerやTensorFlowといった機械学習フレームワークなどのツール群と、IRISとの相互運用性を実現することを目指しているそうだ。Analytic Workflowsでは、データロードや突合、保存といった基本的な処理に加え、ツール間連携の自動化、ワークフロー全体の監視機能などを提供し、メンバー間での連携プロセスやデータタスクの効率的な管理を可能にする。

 「データ分析チーム」において想定されるそのほかの課題としては、構築したモデルのアプリケーションへの実装がスムーズにいかなかったり、急激に増加しているモデル構築のニーズに対してデータサイエンティストのリソースが足りていなかったりといったものがある。IRISでは、これらの課題に対する解決策も用意している。IRISでは、統計分析や機械学習のデータモデルを表現するXML規格である「PMML(Predictive Model Markup Language)」を読み込むことができる。SparkやR、TensorFlowといった環境で作られたモデルをPMML形式でインポートすることで、IRIS単体で実データに対する結果を算出することが可能だ。

 また、現在プレビュー版が提供されている「Integrated ML」と呼ばれるツールでは、データサイエンスのスキルが不足している組織においても、機械学習を活用できる仕組みを提供するという。「Integrated ML」は、「QuickML」という名称で開発が行われていたもので、より一般的なSQL風の構文を使って、基本的な機械学習のタスクを実行できるようにするものだ。特徴量エンジニアリングやモデル選択、SQLオプティマイザによるパフォーマンスの最適化などは、ツール側で自動的に実行される。近年、機械学習プロセスの自動化や活用を容易にするための技術として注目されている「AutoML」の概念を、IRIS上で具現化することを目指して開発されている。

 最後に堀田氏は「AIや機械学習といった領域に関心が集まる中、企業にとっては、その活用に必要なデータを柔軟に取り扱える分析基盤の必要性がさらに増している。データには、さまざまなタイプがあり、組織の中にはいろんな役割を持った人がいる。IRISでは、多彩な機能や周辺ツールを通じて、それらすべてをうまくつなげられるデータ分析基盤を提供したいと考えている」と述べ、セッションを終えた。

IRISによってあらゆるタイプの「データ」と「役割」を連携させる基盤を実現できる
IRISによってあらゆるタイプの「データ」と「役割」を連携させる基盤を実現できる

お問い合わせ

 インターシステムズジャパン株式会社

 関連情報

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
【デブサミ2020】セッションレポート 連載記事一覧

もっと読む

この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/12009 2020/03/11 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング