资料目录:
第 1章 网络爬虫简介 1
1.1 网络爬虫何时有用 1
1.2 网络爬虫是否合法 2
1.3 Python 3 3
1.4 背景调研 4
1.4.1 检查robots.txt 4
1.4.2 检查网站地图 5
1.4.3 估算网站大小 6
1.4.4 识别网站所用技术 7
1.4.5 寻找网站所有者 9
1.5 编写第 一个网络爬虫 11
1.5.1 抓取与爬取的对比 11
1.5.2 下载网页 12
1.5.3 网站地图爬虫 15
1.5.4 ID遍历爬虫 17
1.5.5 链接爬虫 19
1.5.6 使用requests库 28
1.6 本章小结 30
第 2章 数据抓取 31
2.1 分析网页 32
2.2 3种网页抓取方法 34
2.2.1 正则表达式 35
2.2.2 Beautiful Soup 37
2.2.3 Lxml 39
2.3 CSS选择器和浏览器控制台 41
2.4 XPath选择器 43
2.5 LXML和家族树 46
2.6 性能对比 47
2.7 抓取结果 49
2.7.1 抓取总结 50
2.7.2 为链接爬虫添加抓取回调 51
2.8 本章小结 55
第3章 下载缓存 56
3.1 何时使用缓存 57
3.2 为链接爬虫添加缓存支持 57
3.3 磁盘缓存 60
3.3.1 实现磁盘缓存 62
3.3.2 缓存测试 64
3.3.3 节省磁盘空间 65
3.3.4 清理过期数据 66
3.3.5 磁盘缓存缺点 68
3.4 键值对存储缓存