Shoeisha Technology Media

CodeZine(コードジン)

特集ページ一覧

世界最大規模の機械学習コンペティション「Kaggle」に熱中する「Kaggler」と呼ばれる人々とは【デブサミ2018 夏】

【B-8】Kaggleで描く成長戦略〜個人編・組織編〜

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2018/09/19 14:00

 データサイエンスやAIの分野において必要なスキルを有しているかどうかを判別するひとつの指針として、機械学習コンペでの実績が挙げられます。その中で最も有名なプラットフォームとなる「Kaggle(カグル)」およびそのKaggleで行われているコンペに参加するデータサイエンティスト、いわゆる「Kaggler(カグラー)」と呼ばれる人々が今注目を浴びています。「Developers Summit 2018 Summer」で行われた株式会社ディー・エヌ・エー 原田慧氏のセッションでは、そんなKaggleおよびKagglerの詳細を聞くことができました。本記事ではその模様をレポートします。

目次

Kaggleとは

 数理学博士からデータ分析コンサル会社を経て、DeNAに2018年02月に入社した原田氏。現在ではDeNAのデータサイエンスチームのリーダーを務めています。「Kaggler」である原田氏は「Kaggle Master」の称号を保持しており、数多くのコンペで上位入賞を果たしています。

株式会社ディー・エヌ・エー AIシステム部 AI研究開発第二グループ 原田慧氏
株式会社ディー・エヌ・エー AIシステム部 AI研究開発第二グループ 原田慧氏

 原田氏はまず、今回の発表テーマである「Kaggle」とは何か、説明を始めました。Kaggleとは機械学習モデルを構築するコンペティションのプラットフォームです。データを元にしてスポンサー企業が「数字で評価できる」問題を出し、その問題に対して参加者であるKagglerが予測結果を出す分析モデルを作成、分析モデルのベストスコアで順位を競う流れです。上位者には賞金やメダルが授与され、Kaggleのランクにもその内容が反映されていきます。

Kaggleとは、機械学習モデルを構築するコンペティションのプラットフォーム
Kaggleとは、機械学習モデルを構築するコンペティションのプラットフォーム

 Kaggleを学ぶことは、データサイエンティストに必要となるスキルを学ぶことと重なる部分が多いです。原田氏の私見となる重み付けは下図の通りで、機械学習の理論や数学・統計に関する部分、またデータを見極めたり、モデルを作成する作業を必然的に行ったりするため、コーディングやデータ周りの勘所にも強くなります。

「Kaggleで学べること」と「データサイエンティスト」に必要なスキルは重なる部分も多いが、すべて同一ではない
「Kaggleで学べること」と「データサイエンティスト」に必要なスキルは重なる部分も多いが、すべて同一ではない

 では、Kaggleを始めるにはこれらのスキルを事前に備えていなければいけないのでしょうか。初心者視点ではついそう考えてしまいますが、原田氏は「Kaggleを始めるだけなら不要です。Kagglerのすごい人たちも、最初からそうだった訳ではありません。新しい仕事やプログラミング言語を始めるのと同じ感覚で、やる気があればなんとかなります」と、ハードルが決して高くないことを強調しました。

Kagglerはこんな人

 次のパートでは、「Kaggler呼ばれる人々は一体どういう人物なのか」「Kagglerを構成する要素にはどのようなものがあるのか」といった部分に焦点が当てられました。

 Kaggleは数万から数十万ドルといった高額な優勝賞金が出ることでも有名ですが、原田氏は「始める理由にこそ十分なり得るものだが、継続する理由とまではならない」とし、「どちらかというとネットゲームで上位争いをする感覚に近いものがあり、またKaggleに携わることで普段触れることのできないようなデータや新しいテーマなどを学べることがモチベーションとしては大きい」とコメント。企業の採用活動に利用できる(Kaggle Masterになると転職市場での価値が上がるのだそうです)という側面にも言及しました。

 Kagglerには「得意なこと」、また「得意とは限らないこと」がそれぞれあります。

 Kagglerはその経験内容から、精度の高いモデル構築を高速で終わらせ、テーマに対して幅広い引き出しから適切な分析手法を選ぶことができます。また、データを見てあれこれ考える……ということが習慣になっているので、作業を行った際の副作用や、データ処理のミスに気付きやすいといった側面を持っています。最新の論文を読んで(何となく、というレベル感で)理解することを実践しているケースも多いので、新しいことを学ぶ能力が鍛えられているのもポイントでしょう。

 一方で、データの前処理や蓄積の設計(Kaggleでは既に処理・整形されたデータが与えられるためにKaggleではこの部分は必要ではない)、可視化や分かりやすく説明する部分(最終的にモデルができればいい)、何年も同じ仕事をする(Kagglerは新しいことへの好奇心が強い人が多い)といったことは、「Kagglerが得意とは限らないかもしれません」と原田氏はこれまでの経験を踏まえながら説明しました。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • しんや(シンヤ)

    2010年末~2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人(自称/他称含む)として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。...

バックナンバー

連載:【デブサミ2018 夏】セッションレポート

もっと読む

All contents copyright © 2005-2018 Shoeisha Co., Ltd. All rights reserved. ver.1.5