
Python爬虫
python web菜鸟
这个作者很懒,什么都没留下…
展开
-
Python利用selenium爬取去哪儿网
##加粗样式需要解决的难题:1) 验证码的识别2) 对网页的验证码进行截取2) IP池的构建3) 对网页延迟加载的解决第一步:验证码的识别:之前也试过写个算法,对验证码进行识别,但是太复杂了,没能实现,网上搜索,发现有个"云打码"的平台,能够识别,准确率高达98%,下面是Python对这个接口的引用:#coding=utf-8import jsonimport ti...原创 2018-11-04 17:48:01 · 1945 阅读 · 2 评论 -
Python反爬虫机制
添加请求头User-Agent:如果不添加请求头,网站会认为不是用浏览器操作,会进行反爬虫,添加请求头,网站会识别你是用哪个浏览器,不同的浏览器User-Agent不同修改访问频率:大多数情况下,我们遇到的是访问频率限制。如果你访问太快了,网站就会认为你不是一个人。这种情况下需要设定好频率的阈值,否则有可能误伤。遇到这种网页,最直接的办法是限制访问时间需要你限制不定的时间,不能用...翻译 2018-12-26 10:59:34 · 415 阅读 · 0 评论