ネット上のあらゆるデータを収集するWebクローラーは、様々な検索サービスだけでなくデータ分析や機械学習にも利用されています。クローラーを支える技術はWebエンジニアなら押さえておきたいものばかり。翔泳社では重要なポイントを学べる『クローリングハック』を9月14日に発売しました。
『クローリングハック あらゆるWebサイトをクロールするための実践テクニック』では、大規模なWebクローラーの開発・運用を手がける著者陣が、その豊富な経験をもとにクローリングの手法を解説します。
ネット上には日々大量のコンテンツ、データがアップロードされていますが、これらを自動で収集するのがWebクローラーです。著作権法を守るなどルールはあれど、クローラーを活用すれば検索サービスはもちろん、データ分析や機械学習も行えます。
また、クローラーを開発・運用するにはWeb技術の仕組みや基礎知識をきちんと知っておく必要があります。視点を変えれば、クローラーの技術を学ぶことはWeb技術を学ぶことに他なりません。HTTP、文字コード、HTML、認証、Ajax/JSONなどWebエンジニアにとって役に立つのは間違いないでしょう。
クローラーの知見はクロールされる側――つまりWebサイトの開発者、あるいは運営者にとっても有用です。本書で基礎知識を身につけておきませんか?
また今回、本書を購入していただいた方全員に特典「curlの極意」(PDF、12ページ)をプレゼントします。
Webサイトの状況確認やクローラーのテストなどに便利なcurlコマンドの使い方を詳しく解説しますので、本書と合わせてぜひ活用してみてください。
目次
Chapter 1 クローラーを支える技術
1-1 そもそもクローラーってなに?
1-2 クローラーの仕組み
1-3 クローラーとWeb技術
1-4 クローラーを作ってみよう
1-5 開発をサポートするツール
Chapter 2 HTTPをより深く理解する
2-1 HTTPの概要
2-2 HTTPメソッドの使い分け
2-3 信用できないレスポンスステータス
2-4 HTTPヘッダの調整
2-5 プロキシ経由でのクロール
2-6 SSL通信時のエラー
2-7 HTTP/2
2-8 まとめ
Chapter 3 文字化けと戦う
3-1 クローリングと文字コード
3-2 どうして文字は化けるのか?
3-3 クライアントとサーバと文字化け
3-4 文字コードを適切に扱う
3-5 代表的な文字コード
3-6 文字コードにまつわる落とし穴
3-7 文字コードを推定するには?
3-8 まとめ
Chapter 4 スクレイピングの極意
4-1 HTMLからデータを取得する
4-2 CSSセレクタを使いこなす
4-3 スクレイピングしたデータの加工
4-4 メタデータを活用しよう
4-5 まとめ
Chapter 5 認証を突破せよ!
5-1 認証が必要なページをクロールする理由
5-2 様々な認証方式とクローリング方法
5-3 Web APIを使って情報を取得しよう
5-4 まとめ
Chapter 6 クローリングの応用テクニック
6-1 クローラーが守るべきマナー
6-2 必要なページのみクロールしよう
6-3 削除されたコンテンツを判定する
6-4 Webサイトの更新日時、更新頻度を学習する
6-5 究極の効率化=クロールしない
6-6 まとめ
Chapter 7 JavaScriptと戯れる
7-1 AjaxやSPAの流行による苦悩
7-2 JavaScriptとの戦いを避ける
7-3 ブラウザを操作するツールを活用する
7-4 まとめ
この記事は参考になりましたか?
- この記事の著者
-
渡部 拓也(ワタナベ タクヤ)
翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です