使用node.js爬虫

最新推荐文章于 2024-12-03 17:09:33 发布

原创最新推荐文章于 2024-12-03 17:09:33 发布 · 218 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#nodejs

nodejs 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了Node.js的发展历程及如何使用npm安装Node.js。详细解释了如何利用Node.js的第三方插件crawler进行Web爬虫操作，从网页上抓取数据并保存为json文件。

一.node是什么？

Node是一个让JavaScript能够在服务端运行的开发平台，它让JavaScript成为与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。发布于2009年5月，由Ryan Dahl开发，实质是对Chrome V8引擎进行了封装。但是它真正火起来确是在近几年。

二.node的安装

在node.js的官网下载安装包,直接点击安装就可以了
这是node.js的官网

node的第三方插件

npm是node.js的一个包管理工具，一般在我们安装node.js的时候，已经安装，这里面有很多已经写好的包，可以供我们直接使用，下面我们就来使用一下用他里面的crawler，来抓取页面上的一下资源。

crawler的使用

爬虫

什么是爬虫？
Web爬虫就是一种自动访问页面的脚本，他可以在网页上面抓取原始数据，能够节省我们很多的时间，减轻在获取网页上的资源的负担。
下面是一个爬虫使用案例

步骤。

1.首先检查自己的npm时候安装好，使用node在终端运行，精准定位到当前的文件夹。
2.导包之前，先初始化，使用npm init -y指令,在当前目录下就会出现一个package.json的文件
3.导入crawler包npm i crawler，在当前目录就会出现两个文件package-lock.json和node_modules
如图：在这里插入图片描述

// 导入crawler包
var Crawler = require("crawler");

// 导入fs模块
var fs = require("fs");  
// 创建爬虫对象
var c = new Crawler({

    // 最大的连接数
    maxConnections : 10,
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            var str = "";
            var Data = [];
            $(".hero_list li ").each((index, Element) => {
                const heroImage = $(Element).find(".pic>a>img").attr("data-src");

                const heroName = $(Element).find(".name>a").text();
                Data.push({
                    heroImage,
                    heroName
                })                
            })

        fs.writeFile("./data.json", JSON.stringify(Data), (err) => {
                 console.log("写入成功");
             })

        }
        done();
    }
});

c.queue('https://cqcn.fandom.com/zh/wiki/%E5%89%91%E5%A3%AB');