
爬虫
起風、
这个作者很懒,什么都没留下…
展开
-
Selenium与PhantomJS
SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。...原创 2018-10-26 22:03:53 · 207 阅读 · 0 评论 -
scrapy-redis源码自带项目说明
使用scrapy-redis的example来修改先从github上拿到scrapy-redis的示例,然后将里面的example-project目录移到指定的地址:# clone github scrapy-redis源码文件git clone https://github.com/rolando/scrapy-redis.git# 直接拿官方的项目范例,改名为自己的项目用(针对...原创 2018-10-27 15:03:02 · 389 阅读 · 0 评论 -
多线程爬虫案例
Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,建议使用队列 初始化: class Queue.Queue(ma...原创 2018-11-04 21:44:33 · 215 阅读 · 0 评论 -
机器图像识别验证码
对知乎网验证码进行处理:许多流行的内容管理系统即使加了验证码模块,其众所周知的注册页面也经常会遭到网络 机器人的垃圾注册。那么,这些网络机器人究,竟是怎么做的呢?既然我们已经,可以成功地识别出保存在电脑上 的验证码了,那么如何才能实现一个全能的网络机器人呢?大多数网站生成的验证码图片都具有以下属性。它们是服务器端的程序动态生成的图片。验证码图片的 src 属性可能和普通图片不太一 ...原创 2018-12-19 14:29:42 · 423 阅读 · 0 评论 -
城乡县街道四级联动数据
城乡县街道四级联动数据(json)百度网盘链接:https://pan.baidu.com/s/1f9fV_Qgg-nPpYRA1bQzVgA提取码:419q原创 2019-04-26 09:15:49 · 1223 阅读 · 0 评论