CodeZine(コードジン)

特集ページ一覧

機械学習プロジェクトにおける課題と、スパースモデリングに期待が高まる背景

ITエンジニアのためのスパースモデリング入門 第1回

  • LINEで送る
  • このエントリーをはてなブックマークに追加

目次

ビジネスで求められる「説明責任」

 本連載の対象読者で、ディープラーニングを聞いたことがない方はおそらくいないでしょう。今の第三次AIブームの火付け役となったのはまさにディープラーニングですし、現在も活発に新しい手法が研究・開発されて、さまざまなビジネスの領域でも活用が進んでいます。

 ディープラーニングはそれについて述べたウェブサイトや書籍がたくさんありますので詳細はそちらに譲りますが、その最も強力なところは、先述した「入力データやモデル選択における仮説検証」を一切排除し、何が何でも自動的にタスクを実行できるようにした点だと筆者は考えています。またTensorFlowやCaffe、Chainerなど多数のフレームワークが開発され、誰でも簡単に利用できるのも素晴らしい点です。

 では、これからデータサイエンティストを志す人は、ディープラーニングだけをやれば良いのでしょうか? ディープラーニングがあれば、どんな問題でも解決できるのでしょうか? 残念ながらその答えは少なくとも今はノーと言わざるを得ないでしょう。ディープラーニングも銀の弾丸ではなく、適用が向かないユースケースがあります。

 まず一つ目はデータを集めるのにコストや時間がかかるようなケースです。ディープラーニングはその特性上、精度を出すためにどうしても大量のデータが必要です。画像における種々の水増しや、既存の学習モデルを再利用する転移学習など、少量データから学習を行う手法もありますが、質の高い結果を得るにはある程度のデータがあることが好ましいことに変わりはありません。

 またコストの問題はお金を払えば解決できますが、時間がかかるケースは、時間の経過がデータの性質に影響を与えうる点が課題になりえます。例えば製造ラインで不良品の画像を1,000枚集めるのに1年かかったとします。しかし、その1年の間に設備の入れ替えやメンテナンスが進み、1年前のような不良品が出なくなるような場合、やっと集めたデータが実質的には役に立たないということも起こり得ます。

 二つ目は結果に対する説明が求められるケースです。ディープラーニングでは、入力データは何層ものネットワークを経て特徴量に変換され出力が得られます。その仕組み上なぜその結果が得られたのか、設計者であるデータサイエンティストですら説明は難しいものです。先に述べた通り、機械学習システムはどれだけ精度があがっても「間違いうる」システムです。

 例えば、あなたが品質管理システムの責任者だとしましょう。本当は不良品なのに良品だと誤判別する「間違い」が起こると大きな損害が生じうるような場合、どれだけ精度が高くても「間違った理由がわからない」システムを導入したいと思うでしょうか?

 例えば、あなたが小売店の責任者だとしましょう。高精度を誇る売上予測システムが来月の売上は10%落ちると予測しました。あなたはどうにかして売上を維持したいと考え、来店数を増やすために広告を打つ、といった対策を考えます。でも、そのシステムは「何故10%落ちるか」は教えてくれず、広告を打つのは全く的外れな対策かもしれません。このシステムはあなたにとって本当に役に立つものでしょうか?

 これはブラックボックス問題として、ディープラーニングに限らず機械学習システム全般に対する課題としてアカデミアおよびビジネスの双方で注目されています。特に機械学習モデルの「解釈性」と「性能」のトレードオフは、これまでも長らく議論されているトピックの一つです。そのトレードオフとは、端的にいえばシンプルな線形モデルやロジスティック回帰、決定木などは振る舞いを理解しやすいが、複雑な課題に対する予測や分類の性能はイマイチ、他方ランダムフォレストに代表されるアンサンブル学習やディープラーニングなどは性能は良いのだけれど、ブラックボックスで結果に至るプロセスが人には理解できない、というものです。

 そこで、後者の複雑なモデルに対しても一定の解釈性を見出そうというアプローチとしてLIMEやより包括的なSHAPなどが論文および実装が提示され議論されています。また、画像処理でよく利用されるディープラーニングのCNNに対して、それがどのように判断しているのかを解釈する手法としてGrad-CAMなども提案されています。

 他方ビジネスの世界では、ホワイトボックスAIを標榜するNECのように、結論に至った論拠が分かるということを差別化要因として掲げている会社もまだ数は少ないですが出てきています。また、『日経情報ストラテジー』による「データサイエンティスト・オブ・ザ・イヤー」の初代受賞者である河本薫氏は、その書籍『最強のデータ分析組織』において、「いくら精度がよい分析を行っても、現場を納得させ使わせることができなければ業務改革は起こりえない」と喝破しています。これまで「勘と経験」でビジネスの現場を回してきた担当者に納得してもらうためには、機械学習システムの「解釈性」は非常に重要になります。

 ここまで見てきたように、少なくともビジネス用途で「使える」機械学習システムを作るためには、絶大な人気を誇るディープラーニングだけではなくさまざまな機械学習の手法やそれを解釈・評価する方法に目を向けておくことの重要性はお分りいただけるかと思います。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:ITエンジニアのためのスパースモデリング入門

著者プロフィール

  • 染田 貴志(株式会社ハカルス)(ソメダ タカシ)

     京都大学大学院情報学研究科を卒業後、サンマイクロシステムズでエンジニアとしてキャリアをスタート。未踏ソフトウェア創造事業への採択をきっかけに、ベンチャーでのプロダクト・サービス開発の世界にのめりこむ。現在は株式会社ハカルスの CTO として、グローバルなデータサイエンティスト・エンジニアリングチー...

あなたにオススメ

All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5