Python爬取数据的注意事项
1、F12->network-XHR:ajax是个好东西,好多数据直接异步加载,切记不能忽略!
2、Scrapy爬取某网站数据,在settting中延迟设为1秒,单IP,无代理,9级request跳转(包含FormRequest),最后一级(第10级)yield item.平均5秒完成一条数据入库(MongoDB)
3、有些请求的headers中,Referer的值为空或者None,也必...
原创
2017-07-24 17:29:58 ·
959 阅读 ·
0 评论