抓取网络json数据并存入mongodb（2）

最新推荐文章于 2024-07-28 02:39:28 发布

原创

最新推荐文章于 2024-07-28 02:39:28 发布 · 4.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#网络爬虫 #webmagic #mongodb

本文是关于抓取网络JSON数据并存入MongoDB系列的第二部分，主要介绍使用webmagic爬虫框架实现数据抓取。通过分析网络请求，获取JSON数据，并利用webmagic进行轮询爬取，将状态码为200的页面内容分类存储到MongoDB。

这是抓取网络json数据并存入mongodb（1）的续篇。主要是爬虫实现部分。年前就已经完成了的，现在整理一下。

通过Firebug观察网络请求，分析出请求地址后，可以直接构造url参数获取数据的json。

webmagic爬虫框架灵活好用。这次爬取比较暴力，直接轮询，只把返回为200的页面进行处理（框架默认）并分类存储。

自己上代码，详见注释说明。

import com.mongodb.*;
import com.mongodb.util.JSON;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.net.UnknownHostException;
import java.util.ArrayList;
import java.util.List;

/**
 * Created by yiang on 2015/2/16.
 */
public class ShixinAPICrawler2 {
    // TODO: 设置爬取范围
    private static int beginId=0+1;