翔泳社新刊紹介

機械学習に必須の「きれいなデータ」を用意するために『現場で使える！pandasデータ前処理入門』発売

2020/04/20 07:00

ポスト

ポスト

　CodeZineを運営する翔泳社では、4月20日（月）に『現場で使える！pandasデータ前処理入門』を発売しました。本書では機械学習やデータサイエンスにおいて欠かせない「データ前処理」をPythonのライブラリ「pandas」で行う手法について解説。作業に必要な「きれいなデータ」をできるだけ効率よく用意してしまいましょう。

『現場で使える！pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法 』は、機械学習やデータサイエンスに欠かせない「きれいなデータ」を作る手法を解説した入門書です。

　本書では機械学習で人気のPythonを用い、データ前処理においてもはや必須と言われるライブラリ「pandas」の使い方を説明します。データを活用するにしても、収集された生のデータは欠損値や外れ値などが混ざっておりそのままでは利用できません。このデータを前処理していかに利用しやすい形に整えるか、それが作業の効率を決めると言っても過言ではないでしょう。

　将来的に、収集されるデータは種類も量も増えていきます。機械学習エンジニアやデータサイエンティストにとって、そのデータをうまく活用できるかどうかが腕の見せどころ。

　そのためにも、データ前処理の手法をしっかり理解しておくことが必要です。ぜひ本書をその基礎作りの一助としてください。

第1章　pandasの概要とPythonの基本操作
第2章　pandasのデータ構造
第3章　データ参照と読み込み
第4章　データ集計と並び替え
第5章　データ変形
第6章　欠損値・外れ値・重複データ
第7章　関数適用とグループ化
第8章　その他の操作
第9章　データ分析の基本