Datawhale(爬虫):session和cookie,ip代理知识,selenium的使用
IP:网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问
如若出现以上问题,怎么解决呢?
1.修改请求头,模拟浏览器(而不是代码去直接访问)去访问
2.采用代理IP并轮换
3.设置访问时间间隔
如何获取
1、从该网站获取: https://www.xicidaili.com/
2、inspect -> 鼠标定位:
3、要获取的代理I...
原创
2020-04-27 20:24:24 ·
316 阅读 ·
0 评论