目标网站背景调研
1,检查robots.txt
大部分网站几乎都有其robots.txt文件,我们可以通过此文件了解到爬去该网站时存在了哪些限制
访问方式:在浏览器中输入:"http://www.xxx.com/robots.txt" 回车即可,xxx就是你要访问的域名名称
2,估算网站大小
目标网站的大小会影响我们如何进行爬去,如果只有几百个网页的网站,效率可能就不那么重要,但是如果拥有数百万个网页的站点,还是用穿行下载,那么可能需要几个月才能完成,这应该要考虑分布式下载了
3.识别网站所用的技术
一个网站构建所使用的技术类型也会对我们如何爬去数据产生影响,python有一个十分有用的模块--builtwith,可以查看目标网站所使用的技术类型都有哪些
安装方法: pip install builtwith
使用方法:
import builtwith
builtwith.parse("http://www.xxx.com")
4. 寻找网站所有者
我们可能爬过一些网站会禁用爬虫,寻找网站的所有者是为了让我们能过更好的使用爬虫,比如控制其下载速度
python为我们提供了whois协议查询域名的注册者是谁
安装方法: pip install python-whois
使用方法:
import whois
print(whois.whois("xxx.com"))