
数据采集
文章平均质量分 78
笔墨留年
如果觉得委屈,那就努力让自己变得更强大。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
100%成功率的顶象面积验证码识别方案
写在最前面:本文只会讲思路,不会放代码,不会放代码,不会放代码,重要的事情说三遍。因为这个事情还是比较敏感的,顶象在验证码方向做的也算是比较大的了,国内很多公司在用的验证码都是顶象的,代码就不放了,避免被人拿去做坏事了。另外,也是为顶象的验证码做个简单的测试。如果有顶象的大佬看到,可以考虑把这个验证码更新一下啦~纯一时手痒,仅为技术交流,请勿用于任何商业活动,也请勿对顶象的验证码进行攻击,感谢~请不要进行任何违法行为,否则后果自负!以下正文。前两天有位大佬丢过来一张验证码图片,问我该如何处原创 2020-11-27 20:54:24 · 5139 阅读 · 10 评论 -
点选式验证码?使用深度学习搞定它
汉字点选式验证码解决方案方案要点:点选式验证码的一般解决流程如何使用 xyolo 训练自己的目标检测模型不借助 OCR 功能解决中文验证码的识别问题爬虫,反爬虫,反反爬虫……一个无限循环。验证码是反爬虫手段中的常用技术,今天,笔者选择其中的一种——汉字点选式验证码 和大家分享一下。点选式验证码一般会给定两部分内容:需要点击的几个汉字(为了便于区分,把这部分称为标签部分)。可能直接给文字(可以直接从html中知道是什么字),也可能给一张包含这几个字的图片(从html里面只原创 2020-11-16 23:45:06 · 10510 阅读 · 7 评论 -
在kindle上阅读网络小说的正确方法——Kindle网文助手
起源kindle是个好东西啊,如果长时间阅读的话,kindle的体验远胜于手机、电脑。亚马逊上有丰富的kindle电子书资源,但很遗憾,亚马逊上没有网络小说。手机起点又不支持推送到kindle阅读,如果偶尔先看看网文的话,那是真的有点淡疼……于是,就抽出几天零碎时间,写了个简单的小工具,我把它叫做Kindle网文助手。支持从网络上下载网络小说,并推送到 kindle 上阅读。请注意,此项目不...原创 2020-03-11 17:35:30 · 25795 阅读 · 3 评论 -
零基础的爬虫教程,一文快速入门Python爬虫——推一下我的一篇Chat
之前就打算写个爬虫教程,不过出于多种原因(工作、学习、生活各方面因素,但我觉得最主要原因是懒?),写了三篇博文之后,已经断更很久了……后来,看到优快云在推GitChat,一时兴起,准备写个Chat,内容的话,选择了Python爬虫的入门教程。林林总总写了三万多字,个人认为讲得很清晰了,比较适合零基础、或基础薄弱的同学快速入门Python爬虫。只通过这篇文章,完全能达到入门Python爬虫的目的...原创 2019-11-26 23:09:56 · 2709 阅读 · 0 评论 -
如何构建一个自己的代理ip池
前言对于爬虫来说,当你的访问频率达到了目标网站的预警值时,就可能触发目标网站的反爬机制。而封禁访问者ip就是很常见的一个反爬机制。当ip被封禁后,从此ip发出的请求将不能得到正确的响应。这种时候,我们就需要一个代理ip池。什么是代理ip池?通俗地比喻一下,它就是一个池子,里面装了很多代理ip。它有如下的行为特征:1.池子里的ip是有生命周期的,它们将被定期验证,其中失效的将被从池子里面...原创 2019-02-21 18:09:19 · 35968 阅读 · 3 评论 -
关于scrapy分布式爬虫请求去重和指纹过期的两种方法——思路
PS:这篇博文主要讨论思路、方法,有细节伪代码,但没有完整实现代码。如果有时间,后面会专门写一篇实现的博文,附上完整代码。转载请注明出处:https://blog.youkuaiyun.com/aaronjny/article/details/84899262scrapy应该算是当下最流行、也最受欢迎的python爬虫框架了。利用scrapy,爬虫工程师可以快速开发高效的爬虫程序。scrapy默认是单...原创 2018-12-08 22:06:19 · 3978 阅读 · 8 评论 -
在阿里云主机(ubuntu)上安装python3.6和scrapy
之前一直是用python2.7做开发的,近期想将工作迁移到python3上去,毕竟还是要拥抱变化的,python3大势所趋。我在阿里云的主机安装的系统是ubuntu 16.04,上面的python3版本默认为python3.5。但有不少用起来相当爽的特性是python3.6才支持的,就打算将python3.5换成3.6。在成功安装python3.6后,准备安装scrapy时,又是一大波坑袭来。...原创 2018-11-02 17:21:52 · 3507 阅读 · 1 评论 -
selenium + phantomjs常见错误:QXcbConnection、Unable to load Atom 'find_element'、Bad file descriptor
使用python做爬虫的时候,难免会碰到一些必须使用浏览器进行模拟的情况,这里总结一下在python下使用selenium调用phantomjs时,一些常见的坑。以下的一切建立在类ubuntu系统上,其他系统上不清楚,仅供参考。QXcbConnection安装好Phantomjs后,在命令行里运行一下,发现报错了,阅读报错信息大概是环境出了问题,可以通过如下方法解决。使用vim或者ge...原创 2018-05-30 09:44:31 · 1235 阅读 · 0 评论 -
python爬虫入门教程(三):淘女郎爬虫 ( 接口解析 | 图片下载 )
python爬虫入门教程(三):淘女郎爬虫 ( 接口解析 | 图片下载 )时隔好久,爬虫教程终于更新了。不好意思啊= =这篇教程主要讲如何将网络上的图片保存到本地来,以及如何利用接口解析完成动态页面的抓取。本来是想依然用“妹子图”站点来演示的,结果点击去一看,没想到只过去一年,里面的图片却尺度越来越大了。。。还是算了。看了一下,还是用“淘女郎”来演示吧,这也是一个用的比较多的例子。...原创 2018-05-12 19:47:55 · 32995 阅读 · 20 评论 -
python爬虫入门教程(一):开始爬虫前的准备工作
python爬虫(数据采集)入门教程原创 2017-09-07 18:08:50 · 79894 阅读 · 12 评论 -
python爬虫入门教程(二):开始一个简单的爬虫
python爬虫入门教程,介绍编写一个简单爬虫的过程。原创 2017-09-12 15:02:21 · 214433 阅读 · 129 评论 -
python爬虫设置请求消息头(headers)
为python爬虫设置headers,包括urllib和phantomjs两种情况。原创 2017-03-14 23:25:46 · 49001 阅读 · 0 评论