使用nodejs 爬虫框架 Crawler爬取全国省市区的数据

node-crawler 是nodejs 的爬虫框架。

默认使用Cheerio进行jquery式DOM解析,更方便的抓取网页的特定部分。

更多特性和功能 crawler中文文档


爬取全国的省市区的数据

  1. 国家统计局的统计的数据网站
  2. 分析网页的结构。
    • 入口网址是index.html,列出了省份和直辖市
    • 点击省份会跳到下级市的网站,网址为对应的a的href替换掉index
    • 以此类推
  3. 代码下载引入crawler及相关使用到的包

    const Crawler = require('crawler'); 
    const temme = require('temme').default; // temme是基于cheerio,提供了更快捷的方式
    const _ = require('lodash');
    const fs = require('fs');
  4. 编写回调函数

    var crl = new Crawler({
        maxConnections: 100,
        // This will be called for each crawled page
        callback: function (error, res, done) {
            if (error) {
                return console.log(error);
            }else{
                console.log(res.body)
                // analysisi dom
            }
            done();
        }
    
    });
  5. 爬入口网站

    const baseUrl = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/';
    crl.queue(`${baseUrl}index.html`);
  6. 然后我们就可以在回调函数中res.body 中拿到返回的网站源代码了。
  7. 最后对源代码中的具体数据进行分析,一边进行数据录入文件,一边把拿到省级的网页代码继续爬取,一次类推。

这里是代码地址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值