翔泳社新刊紹介

検索サービスにデータ分析、機械学習にも～Webクローラーの基礎知識を『クローリングハック』で解説

2017/09/15 07:00

ポスト

ポスト

　ネット上のあらゆるデータを収集するWebクローラーは、様々な検索サービスだけでなくデータ分析や機械学習にも利用されています。クローラーを支える技術はWebエンジニアなら押さえておきたいものばかり。翔泳社では重要なポイントを学べる『クローリングハック』を9月14日に発売しました。

『クローリングハックあらゆるWebサイトをクロールするための実践テクニック』では、大規模なWebクローラーの開発・運用を手がける著者陣が、その豊富な経験をもとにクローリングの手法を解説します。

　ネット上には日々大量のコンテンツ、データがアップロードされていますが、これらを自動で収集するのがWebクローラーです。著作権法を守るなどルールはあれど、クローラーを活用すれば検索サービスはもちろん、データ分析や機械学習も行えます。

　また、クローラーを開発・運用するにはWeb技術の仕組みや基礎知識をきちんと知っておく必要があります。視点を変えれば、クローラーの技術を学ぶことはWeb技術を学ぶことに他なりません。HTTP、文字コード、HTML、認証、Ajax/JSONなどWebエンジニアにとって役に立つのは間違いないでしょう。

　クローラーの知見はクロールされる側――つまりWebサイトの開発者、あるいは運営者にとっても有用です。本書で基礎知識を身につけておきませんか？

　また今回、本書を購入していただいた方全員に特典「curlの極意」（PDF、12ページ）をプレゼントします。

　Webサイトの状況確認やクローラーのテストなどに便利なcurlコマンドの使い方を詳しく解説しますので、本書と合わせてぜひ活用してみてください。

特典をチェックする

Chapter 3　文字化けと戦う
3-1　クローリングと文字コード
3-2　どうして文字は化けるのか？
3-3　クライアントとサーバと文字化け
3-4　文字コードを適切に扱う
3-5　代表的な文字コード
3-6　文字コードにまつわる落とし穴
3-7　文字コードを推定するには？
3-8　まとめ

Chapter 4　スクレイピングの極意
4-1　HTMLからデータを取得する
4-2　CSSセレクタを使いこなす
4-3　スクレイピングしたデータの加工
4-4　メタデータを活用しよう
4-5　まとめ

Chapter 5　認証を突破せよ！
5-1　認証が必要なページをクロールする理由
5-2　様々な認証方式とクローリング方法
5-3　Web APIを使って情報を取得しよう
5-4　まとめ

Chapter 6　クローリングの応用テクニック
6-1　クローラーが守るべきマナー
6-2　必要なページのみクロールしよう
6-3　削除されたコンテンツを判定する
6-4　Webサイトの更新日時、更新頻度を学習する
6-5　究極の効率化＝クロールしない
6-6　まとめ

Chapter 7　JavaScriptと戯れる
7-1　AjaxやSPAの流行による苦悩
7-2　JavaScriptとの戦いを避ける
7-3　ブラウザを操作するツールを活用する
7-4　まとめ