node-crawler 是nodejs 的爬虫框架。
默认使用Cheerio进行jquery式DOM解析,更方便的抓取网页的特定部分。
更多特性和功能 crawler中文文档
爬取全国的省市区的数据
- 国家统计局的统计的数据网站
- 分析网页的结构。
- 入口网址是index.html,列出了省份和直辖市
- 点击省份会跳到下级市的网站,网址为对应的a的href替换掉index
- 以此类推
代码下载引入crawler及相关使用到的包
const Crawler = require('crawler'); const temme = require('temme').default; // temme是基于cheerio,提供了更快捷的方式 const _ = require('lodash'); const fs = require('fs');
编写回调函数
var crl = new Crawler({ maxConnections: 100, // This will be called for each crawled page callback: function (error, res, done) { if (error) { return console.log(error); }else{ console.log(res.body) // analysisi dom } done(); } });
爬入口网站
const baseUrl = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/'; crl.queue(`${baseUrl}index.html`);
- 然后我们就可以在回调函数中res.body 中拿到返回的网站源代码了。
- 最后对源代码中的具体数据进行分析,一边进行数据录入文件,一边把拿到省级的网页代码继续爬取,一次类推。