WebMagic简明教程(一)
前言
做项目需要爬取一些数据,不想用Python,就尝试了下webmagic这个爬虫框架,总的来说上手还是比较简单的,这里来总结一下.
webmagic是一个简单灵活的Java爬虫框架,如果你熟悉Java而且不想用Python写爬虫,那么webmagic是一个不错的选择.
实战
日常前戏
- 首先呢,咱们来先把jar包下载下来:https://github.com/code4craft/webmagic/releases/tag/WebMagic-0.7.2
或者到我的百度云下载:http://pan.baidu.com/s/1ge6u4cN - 将jar包倒入工程中,这步应该都没什么问题吧QAQ(如果有问题请私信我或者留言,这里就不过多说了)
爬取网站源码
好了,终于来到了爬取阶段,以爬取题库网为例:
ok,上代码:
package com.xiaokangchen.spider.service;
import us.codecraft.webm