Web上にある自社製品への言及やアプリのクラッシュ情報などを、クローラーで自動収集し、改善や分析に役立てる企業が増えています。翔泳社ではクローラー需要に応え、『Pythonによるクローラー&スクレイピング入門』を10月23日に発売しました。まだクローラーの知識がない方でも、すぐに実装できるようになるお勧めの1冊です。
『Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析まで』は、際限なく増え続けるWeb上の情報から有益なものを収集し、活用するためのクローラーとスクレイピングの基礎知識をまとめた入門書です。
本書ではライブラリが非常に充実しているPythonを用いて、開発環境の準備から目的別のクローラーを作成する方法までひととおり解説。ちょっとしたクローリングをするときに便利なOSSのWgetも使ってみます。
Pythonでクローラーを設計するといっても、HTMLやRSS、クローリングしづらいページなど対象は多種多様。そんなときに使えるノウハウを紹介しています。また、収集したデータを保存・管理する方法も解説しました。
さらにクローラーの保守・運営、データの活用方法も説明。クローリングとスクレイピングだけのテクニックではなく、データ収集から活用までを学ぶことができます。収集を自動化したいと思っていた、効率よく情報収集したい――そんな方に取り組んでみてもらいたい1冊です。
クローリングについてもっと深く学びたい方は『クローリングハック』を、Pythonを基礎から勉強したい方には『スラスラわかるPython』もお勧めします。
また今回、本書を購入していただいた方全員に特典(PDF)をプレゼント。クローリングとスクレイピングを行う際に役立つPythonのライブラリ集です。
充実したライブラリを活用し、Python製クローラーを開発し、運用してみてください!
目次
Part 1 基本編
Chapter 1 クローラーとスクレイピングを体験する
Chapter 2 クローラーを設計する
Chapter 3 クローラーおよびスクレイピングの開発環境の準備とPythonの基本
Chapter 4 スクレイピングの基本
Part 2 応用編
Chapter 5 クローラーの設計・開発(応用編)
Chapter 6 スクレイピングの開発(応用編)
Chapter 7 クローラーで集めたデータを利用する
Chapter 8 クローラーの保守・運用
Chapter 9 目的別クローラー&スクレイピング作成手法
Appendix クローラー&スクレイピングに役立つライブラリ
この記事は参考になりましたか?
- この記事の著者
-
渡部 拓也(ワタナベ タクヤ)
翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です