Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイドー

加藤 耕太

2019年8月10日

技術評論社

3,608円(税込)

パソコン・システム開発 / 科学・技術

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート、新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。 1. クローリング・スクレイピングとは何か 1-1. 本書が取り扱う領域 1-2. Wgetによるクローリング 1-3. スクレイピングに役立つUnixコマンド 1-4. gihyo.jpのスクレイピング 1-5. まとめ 2. Pythonではじめるクローリング・スクレイピング 2-1. Pythonを使うメリット 2-2. Pythonのインストールと実行 2-3. Pythonの基礎知識 2-4. Webページを取得する 2-5. Webページからデータを抜き出す 2-6. データをファイルに保存する 2-7. Pythonによるスクレイピングの流れ 2-8. URLの基礎知識 2-9. まとめ 3. ライブラリによる高度なクローリング・スクレイピング 3-1. HTMLのスクレイピング 3-2. XMLのスクレイピング 3-3. データベースに保存する 3-4. クローラーとURL 3-5. Pythonによるクローラーの作成 3-6. まとめ 4. 実用のためのメソッド 4-1. クローラーの特性 4-2. 収集したデータの利用に関する注意 4-3. クロール先の負荷に関する注意 4-4. 繰り返しの実行を前提とした設計 4-5. まとめ 5. クローリング・スクレイピングの実践とデータの活用 5-1. データセットの取得と活用 5-2. APIによるデータの収集と活用 5-3. 時系列データの収集と活用 5-4. オープンデータの収集と活用 5-5. Webページの自動操作 5-6. JavaScriptを使ったページのスクレイピング 5-7. 取得したデータの活用 5-8. まとめ 6. フレームワーク Scrapy 6-1. Scrapyの概要 6-2. Spiderの作成と実行 6-3. 実践的なクローリング 6-4. 抜き出したデータの処理 6-5. Scrapyの設定 6-6. Scrapyの拡張 6-7. クローリングによるデータの収集と活用 6-8. 画像の収集と活用 6-9. まとめ 7. クローラーの継続的な運用・管理 7-1. クローラーをサーバーで実行する 7-2. クローラーの定期的な実行 7-3. クローリングとスクレイピングの分離 7-4. クローリングの高速化・非同期化 7-5. クラウドを活用する 7-6. まとめ Appendix. Vagrantによる開発環境の構築 A-1. VirtualBoxとVagrant A-2. CPUの仮想化支援機能を有効にする A-3. VirtualBoxのインストール A-4. Vagrantのインストール A-5. 仮想マシンを起動する A-6. ゲストOSにSSH接続する A-7. Pythonのスクリプトファイルを実行する A-8. Linuxの基本操作 A-9. Vagrantで仮想マシンを操作するコマンド

本棚に登録&レビュー

みんなの評価(1

starstarstarstar 4

読みたい

1

未読

0

読書中

5

既読

2

未指定

26

書店員レビュー(0)
書店員レビュー一覧

みんなのレビュー

レビューはありません

Google Play で手に入れよう
Google Play で手に入れよう
キーワードは1文字以上で検索してください