Node.js 实现爬虫（3） —— 保存爬取的数据

最新推荐文章于 2024-01-08 09:53:01 发布

原创

最新推荐文章于 2024-01-08 09:53:01 发布 · 3.2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#node.js #爬虫

本文介绍如何使用Node.js实现爬虫并将大量数据保存到文件。当文件不存在时，程序会创建新文件，若文件已存在，则覆盖原有内容。通过将爬取的数据写入文件，方便后续查看和分析。

保存爬取的数据

前面，我们已经写了爬虫程序并在控制台输出，但是，有时爬取的数据量过大，控制台查看不方便，所以，我们可以将数据保存到文件

//引入文件模块
var fs = require("fs") 

//保存文件
fs.writeFile(filename,fileStr,function (err) {
   
   
    if (err) throw err 
    console.log("File Saved !")
})

fs.writeFile(filename，fileStr,callback)

当filename不存在时，会新建文件；否则，重新写文件
filename可以是相对路径，也可以是绝对路径

下面，将之前的多页面的程序中添加保存文件的功能
完整的程序如下：

var fs = require("fs") ;
var http = require('http')
var cheerio = require('cheerio')
var Promise = require('bluebird')
var url = 'http://blog.youkuaiyun.com/ranking.html'

//过滤排行榜页面中“博客周排行”模块的url
function filterRankUrl(html){
   
   
    var $ = cheerio.load(html)     //加载html内容

    var blogRank = $('.rankList .ranking').eq(1).find('li')
    var bl