
爬虫
红雨瓢泼
这个作者很懒,什么都没留下…
展开
-
利用WebMagic的Cookie机制进行页面爬取
目前发布的WebMagic的最新版本仍然不支持post请求模拟登陆来抓取页面,但是相信,在后续的版本中,肯定会支持这项功能。那么要抓取登陆后才能看到的页面怎么办? 一、用户自己发送post请求,将获取的cookie设置到Spider中 二、用户使用抓包工具将抓到的cookie设置到Spider中 本文只讨论第二种方式,第一种方式的抓取,博主会在后续的博客中实现 本文抓取原创 2016-06-24 22:27:50 · 17280 阅读 · 4 评论 -
使用WebMagic爬虫框架爬取暴走漫画
WebMagic是黄亿华先生开发的一款java轻量级爬虫框架。我之所以选择WebMagic,因为它非常轻量级,可以学习爬虫的原理,而且用WebMagic非常容易进行功能扩展。也许你会听过另一个爬虫框架,Heritrix。博主一开始也是先入手了Heritrix,但是后来发现Heritrix实在是不够轻量级,因为博主只是想自己做个爬虫玩玩,并且能对爬虫的原理有更深刻的认识,所以,博主后来就开始入手更轻原创 2016-06-24 15:11:12 · 5364 阅读 · 6 评论