爬虫和反爬

1、反爬策略
(1)通过user-agent客户端标识来判断是不是爬虫。
解决的办法:封装请求头:user-agent
(2)封ip
设置代理ip
(3)通过访问频率来判断是否是非人类请求。
解决的办法:设置爬取间隔和爬取策略。
(4)验证码
解决办法:识别验证码
(5)页面数据不再直接渲染,通过前端js异步获取
解决办法:a通过selenium+phantomjs来获取数据
b找到数据来源的接口(ajax接口)
2、页面中的技术
(1)js:他是一种语言。
获取页面的元素,可以对这些页面元素做些操作。
网络数据的获取
(2)jquery:他就是一个js库,这个库可以使得js编程变得轻松容易。
(3)ajax
同步请求和异步请求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值