データサイエンティストには一朝一夕にはなれない
「昔に比べ、データサイエンスにおいてエンジニアリング力ははるかに重要になっている」。
こう語るのは、DataRobot データサイエンティストのシバタアキラ氏だ。DataRobotは世界最高クラスのデータサイエンティストのノウハウを集約させた機械学習自動化プラットフォーム「DataRobot」を開発・提供している米ボストンにあるITベンチャー。世界最高クラスと謳うだけの根拠もある。同社にはKaggleという全世界約60万人のデータサイエンティストたちの技術コンペでランキング100位以内に入ったことがあるメンバーが14人(そのうち3人はランキング1位を獲得)も在籍しているからだ。シバタ氏は2015年、同社日本拠点の社員第一号として入社した。
エンジニア力が重要になっている背景にあるのが、蓄積するデータが大きくなっていることである。だが「データはネクストオイルだが、溜まっていればいいものではない」とシバタ氏は語る。シバタ氏はニューヨーク大学の研究員時代、データサイエンティストとしてヒッグス粒子発見に貢献したという経験がある。「その際、加速器からは大量のデータが生成されるが、その99.999%以上のデータは1秒以内に捨ててしまっていた。つまり生成されるデータのほとんどは不要なもので、価値のあるデータはその中のごく一部で、それをいかに見つけて集めるか。それがデータサイエンティストの仕事であり、データサイエンティストが求められている理由だ」とシバタ氏は語る。
データの価値を左右するのは、仮説を証明するために有用であることはもちろん、それを取り扱うことができるか。「保存や統合化、構造化、加工できることだ」とシバタ氏は説明を続ける。またデータを解釈・モデル化できるか、データ・モデルの出力を現実の文脈に解釈できるか、さらにはデータ・モデルのリミテーションを理解できるかなどが、データの価値を左右するのだと言う。
シバタ氏はニューヨーク大学の研究員時代、当初はアシスタントリサーチサイエンティストと名乗っていたが、あるときから「データサイエンティスト」と名乗るようになった。「とはいえ誰でも一朝一夕になれるものではない」と語る。