PyData.Tokyo運営だより
PyData.Tokyoオーガナイザーの池内(@iktakahiro)です。Meetup #4も大変盛況で、100名を超える参加登録をいただきました。ご参加いただいた皆様、ご応募いただいた皆様、誠にありがとうございました。
今回も気になるPyDataのトピックをお知らせ致します。
世界のPyData
4月に入り、初々しい新入社員の姿を見かける季節となりました。フランス・パリでは、4月3日にPyData Paris 2015が開催されました。@atelierhideが作成したTogetter : PyData Paris 2015で開催の様子をうかがい知ることができます。
PyData Paris 2015では、PyData.Tokyo #4のテーマ「高速化」と関係するNumbaやPythranの他、やはりscikit-learnを扱うセッションが目立ちました。登壇者のスライドはSlideshareにアップロードされています。
注目のスライドをいくつかピックアップしてご紹介します。
Numba, a JIT compiler for fast numerical code
Numbaの解説です。イジングモデルの計算を行ったパフォーマンステストでは、CPythonに比べて130倍の性能が発揮されています。今回の佐藤さんの発表スライドと併せて読むとNumbaの理解が深まります。
スライド8ページの簡単なサンプルコードの実行結果を記載します。
import numba @numba.jit def f(x): res = 0 for i in range(x): res += 1 return res
Numbaは、通常のPythonコードで書かれた関数に@numba.jitを付与するだけで高速化を図れます。
関数f()の実行結果は下記のとおりです。
@numba.jit | x の値 | timeitでの計測結果 |
---|---|---|
使用あり | 10 | 150 ns |
使用あり | 100000 | 157 ns |
使用なし | 10 | 653 ns |
使用なし | 100000 | 3.85 ms |
introduction to Pandas
Pandasを取り扱ったセッションですが、かなり詳細にPandasの機能とビジュアライゼーションについて解説しています。スライドよりも、公開されているIPython Notebook - Introduction to Pandasを参照するのがよいでしょう。ビジュアライゼーションツールは、Seabornを利用しています。
Seabornはリッチな見栄えのグラフを提供するパッケージで、SeabornのGalleryページでさまざまなグラフを確認することができます。
IPython Notebookで描画した画像を掲載します。
scikit-learn for easy machine learning
機械学習ライブラリscikit-learnの解説です。INRIAの研究者でありscikit-learnのコントリビューターでもあるGael VaroquauxさんのKeynoteで、非常にお薦めのスライドです。パッケージの紹介だけではなく、機械学習の歴史や機械学習にはどのような種類があるかを予備知識として解説しています。
Random Forestの実行速度を比較した場合、scikit-learnはRやWeka、Orange(Python製のデータマイニングツール)よりも実行速度が速いことが示されています。scikit-learnは複数のコントリビューターが速度改善を試みており、0.13、0.14、0.15とバージョンを経るごとにパフォーマンスが改善しています。
ステッカー完成
PyData.Tokyoのステッカーが完成しました。ミートアップ会場での配布の他、オーガナイザーが参加するエンジニア系イベントでも入手のチャンスがあります。姿を見かけたら「ステッカーください!」とお気軽に声をかけてみてください。
次回ミートアップのお知らせ
ミートアップ #5を5月22日(金)に開催予定です。テーマは「自然言語処理」。既に100名を超える参加希望をいただいております。
資料一覧
発表資料、ビデオ(ライブ配信とアーカイブ)、勉強会に関するツイートなど、PyData.Tokyoのコンテンツは一部を除き、すべて公開しています。これらを参考にして、Python+Dataに興味を持つ方が増えていくことを期待しています。