爬虫被拦截后的解决方案(注意robots.txt)
由于课程大作业的缘故初学爬虫,在爬取贝壳网二手房数据时,由于爬虫耗时以I/O操作为主,因此使用多线程爬虫提速。但是被识别为机器人并拦截,无法完成爬取。笔者使用了随机sleep,fake-useragent库,代理等方法,仍然被拦截。robots.txt是一个存放在网站根目录下的ASCII编码的文本文件。爬虫在爬网站之前,建议首先访问并获取这个robots.txt文件的内容,这个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的。要查看一个网站的robots.txt,只需要访问“网站
原创
2020-11-03 19:23:54 ·
3332 阅读 ·
0 评论