
爬虫
Shaun_X
人生苦短,我用Python
展开
-
拉勾网,即便我requests不你的心,我也要selenium到你的人
selenium+requests+xpath爬取拉勾网信息原创 2019-03-08 17:02:46 · 502 阅读 · 0 评论 -
selenium定位元素异常:elenium.common.exceptions.InvalidSelectorException: Message: invalid selector
方案一:class值取其中之一最具有唯一性的;方案二:使用find_element_by_css_selector()来查找元素,在每个class_name中添加"."原创 2019-04-08 23:15:05 · 15087 阅读 · 0 评论 -
极验3.0滑验证码破解:selenium+计算滑动缺口坐标算法=80%正确率
通过截屏获取带有缺口的验证码图片,通过验证码图片的像素进行识别,凹槽位置的RGB三个色素基本都是小于150, 通过遍历x的轴,如果x轴从左到右边如果有连续x_max/8.6个像素中的RGB中的三个色素都是小于150,那个该x就是缺口的左边的距离原创 2019-04-12 20:09:25 · 6892 阅读 · 9 评论 -
爬虫:IP代理池的四个模块的介绍以及各个模块的实现(上)
代理池分为4个模块:存储模块、获取模块、检测模块、接口模块。原创 2019-04-17 22:06:23 · 2145 阅读 · 0 评论 -
爬虫验证码:破解【点击旋转验证码】
通过训练样本+像素的rgb值,来破解点击旋转验证码原创 2019-04-27 21:37:45 · 5374 阅读 · 2 评论 -
爬虫-IP屏蔽题目: 提供俩种解题方法
涉及到如何在添加用户信息的情况,再添加代理来访问页面,这里涉及俩种方法。原创 2019-04-24 09:46:24 · 1745 阅读 · 0 评论 -
爬虫:IP代理池的四个模块的介绍以及各个模块的实现(下)
代理池分为4个模块:存储模块、获取模块、检测模块、接口模块。原创 2019-04-19 20:30:21 · 702 阅读 · 0 评论 -
如何获取大量廉价可靠代理IP地址?
想要弄个1000+以上的廉价可用的IP地址,用这个方法试试??!原创 2019-04-25 07:10:50 · 47355 阅读 · 3 评论 -
Linux下利用jTessBoxEditor工具进行Tesseract样本训练【图】
实操如何通过jTessBoxEditor工具将图片训练成.traineddata原创 2019-04-25 15:58:52 · 1235 阅读 · 0 评论 -
验证码破解:极验3.0滑动验证码破解最新俩种方法
极滑3.0进行了更新,我们点击一下验证那个按钮,获取到的不再是完整的原图,而是带有缺口的原图,这样子,我们就不能使用极滑2.0的办法来获取到滑动缺口的位置,下面我们介绍俩种获取缺口位置的方法,以其中一种为例。原创 2019-04-12 09:52:55 · 17586 阅读 · 2 评论 -
超级鹰:selenium专门用来破解各种验证码
除了极验3.0的验证码,其他的验证码,基本可以解决,特别是价格便宜,接口容易接入。原创 2019-04-10 22:09:33 · 12952 阅读 · 2 评论 -
爬虫案例:协程爬取doutula网站所有表情包
readme.text 运行环境:python3.x版本以上 用到的库文件:requests库,re库,urllib库,queue库,gevent库,os库,lxml库 终端执行命令:python3 doutula_spider.py 10 # 10表示爬区十页表情包 soutula_spider.py import requestsfrom lxml i...原创 2019-03-06 15:21:55 · 397 阅读 · 0 评论 -
selenium+requests完美爬取拉勾网
拉勾网,即便我requests不你的心,我也要selenium到你的人原创 2019-03-09 10:29:43 · 2600 阅读 · 5 评论 -
Python3.x 中安装不了PIL
解决Python3.x 中安装不了PIL原创 2019-03-09 11:36:34 · 1828 阅读 · 0 评论 -
ubantu中使用tesseract识别验证码
爬虫必备知识:tesseract如何使用来测试验证码图片?原创 2019-03-09 12:06:17 · 324 阅读 · 0 评论 -
如何解决chrome浏览器与chromedriver版本不匹配正确解决方法:unknown error: call function result missing 'value'
1. Pycharm报错信息为: selenium.common.exceptions.WebDriverException: Message: unknown error: call function result missing (session info: chrome=65.0.3325.181) (Driver info: chromedriver=2.30.4...原创 2019-03-07 12:51:01 · 5325 阅读 · 0 评论 -
手把手教你如何用selenium实现自动抽奖工具(穿越火线王者夺宝活动为例)
这样子抽奖,都觉得特别高级,概率都在爆增原创 2019-03-15 10:14:37 · 5572 阅读 · 1 评论 -
成功解决爬取拉勾网:'status': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '117.136.41.XX', 'state': 2402}
之前在爬取拉勾网的职位信息的时候,一直显示这个:'status': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '117.136.41.41', 'state': 2402}当时使用headers传递头部信息: headers = { 'Referer': 'https://www.lagou.com/jobs/list_Py...原创 2019-03-08 10:08:03 · 13277 阅读 · 16 评论 -
爬虫实战—破解CSS反爬
破解CSS反爬虫技巧:before伪元素选择器以及定位元素偏移原创 2019-05-06 16:59:17 · 5389 阅读 · 1 评论