CodeZineを運営する翔泳社では、4月20日(月)に『現場で使える!pandasデータ前処理入門』を発売しました。本書では機械学習やデータサイエンスにおいて欠かせない「データ前処理」をPythonのライブラリ「pandas」で行う手法について解説。作業に必要な「きれいなデータ」をできるだけ効率よく用意してしまいましょう。
『現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 』は、機械学習やデータサイエンスに欠かせない「きれいなデータ」を作る手法を解説した入門書です。
本書では機械学習で人気のPythonを用い、データ前処理においてもはや必須と言われるライブラリ「pandas」の使い方を説明します。データを活用するにしても、収集された生のデータは欠損値や外れ値などが混ざっておりそのままでは利用できません。このデータを前処理していかに利用しやすい形に整えるか、それが作業の効率を決めると言っても過言ではないでしょう。
将来的に、収集されるデータは種類も量も増えていきます。機械学習エンジニアやデータサイエンティストにとって、そのデータをうまく活用できるかどうかが腕の見せどころ。
そのためにも、データ前処理の手法をしっかり理解しておくことが必要です。ぜひ本書をその基礎作りの一助としてください。
目次
第1章 pandasの概要とPythonの基本操作
第2章 pandasのデータ構造
第3章 データ参照と読み込み
第4章 データ集計と並び替え
第5章 データ変形
第6章 欠損値・外れ値・重複データ
第7章 関数適用とグループ化
第8章 その他の操作
第9章 データ分析の基本
この記事は参考になりましたか?
- この記事の著者
-
渡部 拓也(ワタナベ タクヤ)
翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です