
python
无聊的白色大米饭
RPA
AI
展开
-
ProxyHandler_处理器(代理设置)
ProxyHandler处理器(代理设置) 很多网站会检测某一段时间某个ip的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个ip的访问。 所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个ip继续爬取。 urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理: 1、代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,再转发给原创 2021-08-30 00:35:24 · 511 阅读 · 0 评论 -
常见反爬手段和解决思路(二)
反爬的三个方向 1. 基于身份识别进行反爬 2. 基于爬虫行为进行反爬 4. 基于数据加密进行反爬 1、常见基于身份识进行反爬 (1)通过headers字段来反爬 headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 - 通过headers中的User-Agent字段来反爬 反爬原理:爬虫默认情况下是没有User-Agent,而是使用模块默认设置 解决方法:请求之前添加User-Agent即可;更好的方式是使用User-Agent池来解决原创 2021-08-21 01:51:57 · 500 阅读 · 0 评论 -
常见反爬手段和解决思路(一)
一、服务器反爬的原因 1. 爬虫占总PV(PV是指页面访问的次数,每打开或刷新一次页面,就算作一个PV )比例较高, 浪费资源(尤其是三月份爬虫)实际上就是流量压力,爬虫会对服务器造成许多虚假的流量 2. 资源被批量抓走,丧失竞争力 3. 法律灰色地带,通过技术手段降低爬取的难易度 2、服务器常反什么样的爬虫 1. 十分低级的应届毕业生 做毕设写论文 2. 十分低级的创业小公司 3. 失控小爬虫 4. 成型的商业对手 6. 抽风的搜索引擎:请求量和网络攻击没什么区原创 2021-08-21 01:30:27 · 288 阅读 · 0 评论