SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

翔泳社 新刊紹介

検索サービスにデータ分析、機械学習にも~Webクローラーの基礎知識を『クローリングハック』で解説

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 ネット上のあらゆるデータを収集するWebクローラーは、様々な検索サービスだけでなくデータ分析や機械学習にも利用されています。クローラーを支える技術はWebエンジニアなら押さえておきたいものばかり。翔泳社では重要なポイントを学べる『クローリングハック』を9月14日に発売しました。

クローリングハック あらゆるWebサイトをクロールするための実践テクニック』では、大規模なWebクローラーの開発・運用を手がける著者陣が、その豊富な経験をもとにクローリングの手法を解説します。

 ネット上には日々大量のコンテンツ、データがアップロードされていますが、これらを自動で収集するのがWebクローラーです。著作権法を守るなどルールはあれど、クローラーを活用すれば検索サービスはもちろん、データ分析や機械学習も行えます。

 また、クローラーを開発・運用するにはWeb技術の仕組みや基礎知識をきちんと知っておく必要があります。視点を変えれば、クローラーの技術を学ぶことはWeb技術を学ぶことに他なりません。HTTP、文字コード、HTML、認証、Ajax/JSONなどWebエンジニアにとって役に立つのは間違いないでしょう。

 クローラーの知見はクロールされる側――つまりWebサイトの開発者、あるいは運営者にとっても有用です。本書で基礎知識を身につけておきませんか?

 また今回、本書を購入していただいた方全員に特典「curlの極意」(PDF、12ページ)をプレゼントします。

 Webサイトの状況確認やクローラーのテストなどに便利なcurlコマンドの使い方を詳しく解説しますので、本書と合わせてぜひ活用してみてください。

特典をチェックする

目次

Chapter 1 クローラーを支える技術
1-1 そもそもクローラーってなに?
1-2 クローラーの仕組み
1-3 クローラーとWeb技術
1-4 クローラーを作ってみよう
1-5 開発をサポートするツール

Chapter 2 HTTPをより深く理解する
2-1 HTTPの概要
2-2 HTTPメソッドの使い分け
2-3 信用できないレスポンスステータス
2-4 HTTPヘッダの調整
2-5 プロキシ経由でのクロール
2-6 SSL通信時のエラー
2-7 HTTP/2
2-8 まとめ

Chapter 3 文字化けと戦う
3-1 クローリングと文字コード
3-2 どうして文字は化けるのか?
3-3 クライアントとサーバと文字化け
3-4 文字コードを適切に扱う
3-5 代表的な文字コード
3-6 文字コードにまつわる落とし穴
3-7 文字コードを推定するには?
3-8 まとめ

Chapter 4 スクレイピングの極意
4-1 HTMLからデータを取得する
4-2 CSSセレクタを使いこなす
4-3 スクレイピングしたデータの加工
4-4 メタデータを活用しよう
4-5 まとめ

Chapter 5 認証を突破せよ!
5-1 認証が必要なページをクロールする理由
5-2 様々な認証方式とクローリング方法
5-3 Web APIを使って情報を取得しよう
5-4 まとめ

Chapter 6 クローリングの応用テクニック
6-1 クローラーが守るべきマナー
6-2 必要なページのみクロールしよう
6-3 削除されたコンテンツを判定する
6-4 Webサイトの更新日時、更新頻度を学習する
6-5 究極の効率化=クロールしない
6-6 まとめ

Chapter 7 JavaScriptと戯れる
7-1 AjaxやSPAの流行による苦悩
7-2 JavaScriptとの戦いを避ける
7-3 ブラウザを操作するツールを活用する
7-4 まとめ

クローリングハック

Amazon SEshop その他


クローリングハック
あらゆるWebサイトをクロールするための実践テクニック

著者:竹添直樹、島本多可子、田所駿佑、萩野貴拓、川上桃子
発売日:2017年9月14日(木)
価格:2,894円(税込)

本書について

本書では、実サービスでの大規模なWebクローラーの開発/運用経験をもとに、Webクローラーを支える、HTTP、文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアがおさえておくべきポイントやテクニックを学びます。

 

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
翔泳社 新刊紹介連載記事一覧

もっと読む

この記事の著者

渡部 拓也(ワタナベ タクヤ)

 翔泳社マーケティング課。MarkeZine、CodeZine、EnterpriseZine、Biz/Zine、ほかにて翔泳社の本の紹介記事や著者インタビュー、たまにそれ以外も執筆しています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/10359 2017/09/15 07:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング