爬虫
不了痕
风景很美,常回头看看
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于webmagic爬取并下载百度图片
最近想下载一些图片,在一次一次另存为之后实在受不了了,于是写了一个小程序直接把图片下载下来现把代码贴出,以供参考吧import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import us.codecraft.webmagic.Page;import us.codecraft.webma原创 2017-02-05 21:26:41 · 4863 阅读 · 8 评论 -
webmagic是个神奇的爬虫(一)--如何创建webmagic项目
本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可原创 2017-03-11 09:05:50 · 19304 阅读 · 0 评论 -
webmagic是个神奇的爬虫(二)-- webmagic爬取流程细讲
webmagic流程图镇楼:第一篇笔记讲到了如何创建webmagic项目,这一讲来说一说webmagic爬取的主要流程。webmagic主要由Downloader(下载器)、PageProcesser(解析器)、Schedule(调度器)和Pipeline(管道)四部分组成。从流程图上可以看出,webmagic爬取信息首先需要依赖给出的一个初始爬取的地址,下载器会下原创 2017-03-12 18:02:48 · 22269 阅读 · 3 评论 -
webmagic是个神奇的爬虫【三】—— 使用selenium模拟登陆
selenium本身是一种自动化测试工具,可以模拟浏览器进行页面的加载,好处在于能通过程序,自动的完成例如页面登录、AJAX内容获取的的操作。尤其是获取AJAX生成的动态信息方面,一般爬虫只会获取当前页面的静态信息,不会加载动态生成的内容,但是selenium则完美的帮我们实现了这一功能。但同样他也有一些不好的地方,就是使用selenium功能的时候,需要事先加载selenium的驱动,在原创 2017-05-03 00:29:36 · 10827 阅读 · 4 评论
分享