保存爬取的数据
前面,我们已经写了爬虫程序并在控制台输出,但是,有时爬取的数据量过大,控制台查看不方便,所以,我们可以将数据保存到文件
//引入文件模块
var fs = require("fs")
//保存文件
fs.writeFile(filename,fileStr,function (err) {
if (err) throw err
console.log("File Saved !")
})
fs.writeFile(filename,fileStr,callback)
- 当filename不存在时,会新建文件;否则,重新写文件
- filename可以是相对路径,也可以是绝对路径
下面,将之前的多页面的程序中添加保存文件的功能
完整的程序如下:
var fs = require("fs") ;
var http = require('http')
var cheerio = require('cheerio')
var Promise = require('bluebird')
var url = 'http://blog.youkuaiyun.com/ranking.html'
//过滤排行榜页面中“博客周排行”模块的url
function filterRankUrl(html){
var $ = cheerio.load(html) //加载html内容
var blogRank = $('.rankList .ranking').eq(1).find('li')