这是 抓取网络json数据并存入mongodb(1) 的续篇。主要是爬虫实现部分。年前就已经完成了的,现在整理一下。
通过Firebug观察网络请求,分析出请求地址后,可以直接构造url参数获取数据的json。
webmagic爬虫框架灵活好用。这次爬取比较暴力,直接轮询,只把返回为200的页面进行处理(框架默认)并分类存储。
自己上代码,详见注释说明。
import com.mongodb.*;
import com.mongodb.util.JSON;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import java.net.UnknownHostException;
import java.util.ArrayList;
import java.util.List;
/**
* Created by yiang on 2015/2/16.
*/
public class ShixinAPICrawler2 {
// TODO: 设置爬取范围
private static int beginId=0+1;

本文是关于抓取网络JSON数据并存入MongoDB系列的第二部分,主要介绍使用webmagic爬虫框架实现数据抓取。通过分析网络请求,获取JSON数据,并利用webmagic进行轮询爬取,将状态码为200的页面内容分类存储到MongoDB。
最低0.47元/天 解锁文章
825

被折叠的 条评论
为什么被折叠?



