成果発表会&全体を通して
PyData.Tokyoオーガナイザーの山本(@kaita)です。
成果発表会では、チュートリアルを得られた知識に加え、さらに参加者独自の改良を加え推定手法を発表するチームが多くみられました。
タイタニックのデータベースでは、職業などの情報は含まれていないのですが、例えば「Dr」というミドルネームがある名前は医者か博士などである、ということが分かるように、ミドルネームからある程度その人の職業や身分を推定できます。同情報を他の特徴量と組み合わせて利用することによって、推定精度を向上しよう、というアプローチを提案される方がいらっしゃいました。
他の特徴量の設計方法としては、
- 名前から家族構成を取得する手法
- チケットナンバーから乗船地などを取得する手法
- チケットナンバーから船の右舷/左舷どちらに乗船しているかを取得する手法
などの提案がありました。
どのアプローチも与えられたデータを単純にSVMやランダムフォレストなどの機械学習アルゴリズムに投入して推定するのではなく、それぞれのデータの持つ意味(今回のタスクの場合はタイタニックが沈没した際の背景)を理解し特徴量を設計した上で、それら特徴量に適合するアルゴリズムをきちんと選定する、というデータ解析における最も基本的なアプローチを躊躇している点が印象的でした。
最後に、今回のチュートリアルやハッカソンへ参加した方の意見としては、
- データ解析における基本的なデータ解析の作業手順を確認できたのが良かった
- pandas, scikit-learnなど、pythonでデータ解析をする際に必要な環境についての理解が深まった
- 日常の業務や研究における課題を本日学習した参考にして応用してみたい
- kaggle,TRECなどのデータ分析コンペティションにチャレンジングしてみたい
などのご意見をいただきました。
そのようなご意見からも分かる通り、今回のハッカソン開催は、PyData.Tokyoの開催目的の一つである「データサイエンティストになることを目指している方々の育成」という開催目標に対してある程度寄与できたのではないかと考えております。
今後のPyData.Tokyoでは、引き続き勉強会やハッカソン開催などを開催していきます。こうご期待ください。
資料一覧
発表資料、ビデオ(ライブ配信とアーカイブ)、勉強会に関するツイートなど、PyData.Tokyoのコンテンツは一部を除き、すべて公開しています。これらを参考にして、Python+Dataに興味を持つ方が増えていくことを期待しています。