WebMagic简明教程(一)

WebMagic简明教程(一)

前言

做项目需要爬取一些数据,不想用Python,就尝试了下webmagic这个爬虫框架,总的来说上手还是比较简单的,这里来总结一下.

webmagic是一个简单灵活的Java爬虫框架,如果你熟悉Java而且不想用Python写爬虫,那么webmagic是一个不错的选择.

实战

日常前戏

  1. 首先呢,咱们来先把jar包下载下来:https://github.com/code4craft/webmagic/releases/tag/WebMagic-0.7.2
    或者到我的百度云下载:http://pan.baidu.com/s/1ge6u4cN
  2. 将jar包倒入工程中,这步应该都没什么问题吧QAQ(如果有问题请私信我或者留言,这里就不过多说了)

爬取网站源码

好了,终于来到了爬取阶段,以爬取题库网为例:

ok,上代码:
package com.xiaokangchen.spider.service;

import us.codecraft.webm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值