一,项目问题:
1、你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的
1,通过headers反爬虫:
解决策略,伪造headers
2,基于用户行为反爬虫:
动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫
3,基于动态页面的反爬虫:
跟踪服务器发送的ajax请求,模拟ajax请求,selnium和phtamjs
或使用selenium + phantomjs 进行抓取抓取动态数据,或者找到动态数据加载的json页面。
4,验证码 :
使用打码平台识别验证码
5,数据加密:
对部分数据进行加密的,可以使用selenium进行截图,
使用