
爬虫
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的
红岸水滴
https://github.com/fenglei110
从孤独中寻找自由。
展开
-
爬虫之 ---- 无界面浏览器
一 . 大招从基础开始 1. PhantomJS:无界面的浏览器 Selenium: 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真...原创 2018-05-14 23:32:13 · 9206 阅读 · 2 评论 -
scrapy-redis架构
更过总结查看Github1. scrapy 与 scrapy-redisScrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组...原创 2018-05-22 19:17:27 · 1822 阅读 · 1 评论 -
通过动态获取cookie爬取国家企业信用信息公司系统
更多总结查看Github1.首先分析,通过设置heads头,requests包来爬取网页总返回521,其实就应该明白做了简单的反爬。我们要动态获取cookie,然后通过每次返回的cookie去获取数据。百度也查到很多解析前端js代码来获取cookie的,感觉太麻烦了。我这里使用的webdriver中的phantomJS(看下源码就知道webdriver支持很多,也可以使用Chrome)2....原创 2018-08-20 09:11:18 · 16580 阅读 · 8 评论