Kaggleとは
数理学博士からデータ分析コンサル会社を経て、DeNAに2018年02月に入社した原田氏。現在ではDeNAのデータサイエンスチームのリーダーを務めています。「Kaggler」である原田氏は「Kaggle Master」の称号を保持しており、数多くのコンペで上位入賞を果たしています。
原田氏はまず、今回の発表テーマである「Kaggle」とは何か、説明を始めました。Kaggleとは機械学習モデルを構築するコンペティションのプラットフォームです。データを元にしてスポンサー企業が「数字で評価できる」問題を出し、その問題に対して参加者であるKagglerが予測結果を出す分析モデルを作成、分析モデルのベストスコアで順位を競う流れです。上位者には賞金やメダルが授与され、Kaggleのランクにもその内容が反映されていきます。
Kaggleを学ぶことは、データサイエンティストに必要となるスキルを学ぶことと重なる部分が多いです。原田氏の私見となる重み付けは下図の通りで、機械学習の理論や数学・統計に関する部分、またデータを見極めたり、モデルを作成する作業を必然的に行ったりするため、コーディングやデータ周りの勘所にも強くなります。
では、Kaggleを始めるにはこれらのスキルを事前に備えていなければいけないのでしょうか。初心者視点ではついそう考えてしまいますが、原田氏は「Kaggleを始めるだけなら不要です。Kagglerのすごい人たちも、最初からそうだった訳ではありません。新しい仕事やプログラミング言語を始めるのと同じ感覚で、やる気があればなんとかなります」と、ハードルが決して高くないことを強調しました。
Kagglerはこんな人
次のパートでは、「Kaggler呼ばれる人々は一体どういう人物なのか」「Kagglerを構成する要素にはどのようなものがあるのか」といった部分に焦点が当てられました。
Kaggleは数万から数十万ドルといった高額な優勝賞金が出ることでも有名ですが、原田氏は「始める理由にこそ十分なり得るものだが、継続する理由とまではならない」とし、「どちらかというとネットゲームで上位争いをする感覚に近いものがあり、またKaggleに携わることで普段触れることのできないようなデータや新しいテーマなどを学べることがモチベーションとしては大きい」とコメント。企業の採用活動に利用できる(Kaggle Masterになると転職市場での価値が上がるのだそうです)という側面にも言及しました。
Kagglerには「得意なこと」、また「得意とは限らないこと」がそれぞれあります。
Kagglerはその経験内容から、精度の高いモデル構築を高速で終わらせ、テーマに対して幅広い引き出しから適切な分析手法を選ぶことができます。また、データを見てあれこれ考える……ということが習慣になっているので、作業を行った際の副作用や、データ処理のミスに気付きやすいといった側面を持っています。最新の論文を読んで(何となく、というレベル感で)理解することを実践しているケースも多いので、新しいことを学ぶ能力が鍛えられているのもポイントでしょう。
一方で、データの前処理や蓄積の設計(Kaggleでは既に処理・整形されたデータが与えられるためにKaggleではこの部分は必要ではない)、可視化や分かりやすく説明する部分(最終的にモデルができればいい)、何年も同じ仕事をする(Kagglerは新しいことへの好奇心が強い人が多い)といったことは、「Kagglerが得意とは限らないかもしれません」と原田氏はこれまでの経験を踏まえながら説明しました。