
爬虫
tianxingzheaa
这个作者很懒,什么都没留下…
展开
-
爬虫--scrapy 初探
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。写爬虫比较popular的语言是python,楼主主要就是用python写,到现在也写过一二十个简单爬虫了; 网上也有写的比较好的介绍 http://www.zhihu.com/question/20899988盗个图,这就是基本原理 大概流程有 :原创 2015-10-31 13:51:33 · 256599 阅读 · 0 评论 -
selenium+phantomJS爬虫,适用于登陆限制强,点触验证码等一些场景
selenium是很出名的自动化测试工具,多数场景是测试工程师用来做自动化测试,但是同样selenium可以作为基本上模拟浏览器的工具,去爬取一些基于http request不能或者很复杂的才能爬取的站点,而且交互式脚本(如:python) + selenium可以直接看到浏览器的执行过程,利于debug,同时看上去比较有成就感。贴个实例吧firefoxProfile = FirefoxProfil原创 2016-03-27 19:02:04 · 264232 阅读 · 1 评论 -
微信抓取
和网上其他地方一样,爬微信,无非就是sogou和中间人代理两种方式: 1. sogou实现了爬虫和模拟浏览器两种方式,封的很严重,想要拿到批量的biz(微信的一个必须爬取参数)有点麻烦,但是几千个还是拿到了; 2. 中间人代理,看了网上的一些方法,大体框架是采用的 手机客户端微信 + anyproxy代理攻击 + php后端服务 + python交互数据库(SQL ),有点杂乱,其实php和py原创 2017-08-10 20:03:27 · 209533 阅读 · 2 评论 -
Ubuntu上使用iptables + ipset 联合进行ip封禁
爬虫很烦人,dos攻击更烦人,今天公司一个裸站被dos攻击了,简单记录一下;iptables是Linux上常用的防火墙软件,使用 iptables 封 IP,是一种比较简单的应对网络攻击的方式,也算是比较常见,但其使用链表作为数据结构,效率很低,复杂度都是O(n);ipset 提供了把这个 O(n) 的操作变成 O(1) 的方法:就是把要处理的 IP 放进一个集合,对这个集合设置一条 ipt...原创 2018-04-25 18:55:33 · 7732 阅读 · 0 评论 -
数据爬取-奇技淫巧系列1——抓取隐藏在CDN,防爬代理等服务后面的数据
准备写个数据爬取的技巧系列Blog,不定时更新 互联网上爬虫和反爬大战已愈演愈烈,不同段位的选手在相互交锋,有时候爬数据采用比较温和的方式就能获取到,但是碰到难啃的骨头,就必须要采用一些奇技淫巧,于是就有了该系列。 该系列主要提供思路,很少涉及细节系列第一篇,主要对付隐藏在CDN,防爬代理服务器后面的网站,怎么做呢,分如下几步:想方设法找到网站的真实IP(比如找子域名,多节点Ping...原创 2018-05-17 19:33:50 · 8229 阅读 · 0 评论