CodeZine(コードジン)

特集ページ一覧

スパースモデリングはなぜ生まれたか? 代表的なアルゴリズム「LASSO」の登場

ITエンジニアのためのスパースモデリング入門 第2回

  • LINEで送る
  • このエントリーをはてなブックマークに追加

目次

LASSOの発展形

 扱うデータに含まれる複数の説明変数間に類似性などの何らかの関係性がある場合、それらの関係性を考慮した制約を課すとより好ましい結果を得る事ができるようになります。これまでのスパースモデリングの研究において、LASSOの正則化項に工夫をする事でそのデータの制約を表現しさまざまな発展形を生み出してきました。ここではその一部を簡単に紹介します。

時系列など順序データに適用できる連結LASSO

 時系列データのように説明変数間に順序関係があり、隣り合う説明変数のいくつかは目的変数に同程度の寄与があるようなデータ解析には連結LASSO(Fused LASSO)という手法が有効です。連結 LASSO を適用することで、目的変数への寄与率が同じ説明変数を特定することができます。

 連結LASSOは先ほど紹介したscikit learnには実装がありませんが、筆者がコミッタをつとめるオープンソースのスパースモデリング用のライブラリである spm-imageには実装があります。ご興味がある方はサンプルをご覧ください。

カテゴリデータに適用できるグループLASSO

 データ分析をする上でカテゴリ変数をダミー変数として分析することはよくあります。例えば性別を扱うときに以下のようなデータを作ることがあります。

table
ID 男性 女性
0001 1 0
0002 0 1

 このようなダミー変数を含んだ回帰モデルにスパースモデリングを適用するとダミー変数のいずれかの係数が0となることがあります。上の例でいうと男性か女性のいずれかの変数が選ばれることがあるということです。これは困ります。あくまでも変数は性別ですので男性と女性というダミー変数を一つの性別というグループとして扱いそれらの係数をまとめてゼロか非ゼロかを推定する必要があります。このような場合にはグループLASSO(Group LASSO)を使うことでスパースモデリングを適用することができます。

 ここではそれぞれの手法を詳しくは説明しませんが、興味のある方は以下の論文にあたってみてください。

 次回はスパースモデリングのモデルの評価方法について紹介したいと思います。お楽しみに。



  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:ITエンジニアのためのスパースモデリング入門

著者プロフィール

  • 木虎 直樹(株式会社ハカルス)(キトラ ナオキ)

     プログラマとインフラエンジニアを行き来するという、今となっては境界が曖昧になってきつつあるが、当時としては珍しい感じでキャリアをスタートして早20年弱。2011年頃からはデータ分析や機械学習といった最近では AI と一単語でまとめられてしまうような分野も手がけるようになった。  2018年 4月...

あなたにオススメ

All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5