機械学習研究の最新動向
続いて機械学習の理論やアルゴリズム開発を専門としている理化学研究所の杉山氏が機械学習研究の現状について説明した。
杉山氏によると、近年ICML(International Conference on Machine Learning)やNIPS(Neural Information Processing Systems)など機械学習の国際会議では参加者数が激増の傾向にあると言う。採択論文を国別で見ると、現時点ではアメリカが強く、中国が猛追している。日本は残念ながら非常に少ない。
現在、音声認識、画像理解、言語翻訳の分野では機械学習は人間と同等以上の性能を達成しているが、更なる飛躍には課題があると杉山氏は指摘する。それは研究開発にかかるコスト、ビッグデータ収集にかかるコスト、そして個人情報保護などの規制だ。
研究開発にかかるコストについては、機械学習ではタスクが多いことが挙げられる。汎用的なアプローチとしてはデータを生成する規則(確率分布)を推定すればいいのだが、この確率分布の推定は困難なので各タスクに特化したアプローチを行う。だが個別に研究開発するのもまた大変。汎用性と有効性がトレードオフとなるところ、中間的なアプローチとして確率密度比を使う。確率分布そのものは必要ではなく、比が分かればいい。杉山氏は「多くの学習タスクが実は最小二乗法で解ける」と指摘する。
ビッグデータ収集にかかるコストというのは、医療や自然災害など正解ラベル付き(教師データ)のビッグデータが簡単に得られない分野がある。そのため限られた情報から学習できるようにする必要がある。容易に入手できるラベルなしのデータに、いかに低いコストでラベルを付けるかが重要だ。そのための手法として、杉山氏は正解(正例)とラベルなしデータからの分類、半教師付分類、正信頼度からの分類、類似データ対からの分類、クラス比が異なるラベルなしデータを2セット用意して分類などを紹介した。
最後にシンポジウム登壇者が並びパネルディスカッションを行った。これまでの講演についての感想や現状における課題などを改めて意見交換した。今後のMLSEの方向性として、石川氏は「プレーヤーはみなさんです」と強調した。MLSEから何らかのアウトプットを出すというよりは、MLSEは関係者が顔を合わせるコミュニティのような場となることを目指す。「今後ソフトウェア工学と機械学習工学のノウハウが十分に共有され、10年後には新しい工学体系という概念が消えているといい」と石川氏は期待を語った。