使用node.js爬虫

本文介绍了Node.js的发展历程及如何使用npm安装Node.js。详细解释了如何利用Node.js的第三方插件crawler进行Web爬虫操作,从网页上抓取数据并保存为json文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.node是什么?

Node是一个让JavaScript能够在服务端运行的开发平台,它让JavaScript成为与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装。但是它真正火起来确是在近几年。

二.node的安装

在node.js的官网下载安装包,直接点击安装就可以了
这是node.js的官网

node的第三方插件

npm是node.js的一个包管理工具,一般在我们安装node.js的时候,已经安装,这里面有很多已经写好的包,可以供我们直接使用,下面我们就来使用一下用他里面的crawler,来抓取页面上的一下资源。

crawler的使用

爬虫

什么是爬虫?
Web爬虫就是一种自动访问页面的脚本,他可以在网页上面抓取原始数据,能够节省我们很多的时间,减轻在获取网页上的资源的负担。
下面是一个爬虫使用案例

步骤。

1.首先检查自己的npm时候安装好,使用node在终端运行,精准定位到当前的文件夹。
2.导包之前,先初始化,使用npm init -y指令,在当前目录下就会出现一个package.json的文件
3.导入crawler包npm i crawler,在当前目录就会出现两个文件package-lock.json和node_modules
如图:在这里插入图片描述

// 导入crawler包
var Crawler = require("crawler");

// 导入fs模块
var fs = require("fs");  
// 创建爬虫对象
var c = new Crawler({

    // 最大的连接数
    maxConnections : 10,
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            var str = "";
            var Data = [];
            $(".hero_list li ").each((index, Element) => {
                const heroImage = $(Element).find(".pic>a>img").attr("data-src");

                const heroName = $(Element).find(".name>a").text();
                Data.push({
                    heroImage,
                    heroName
                })                
            })

        fs.writeFile("./data.json", JSON.stringify(Data), (err) => {
                 console.log("写入成功");
             })

        }
        done();
    }
});

c.queue('https://cqcn.fandom.com/zh/wiki/%E5%89%91%E5%A3%AB');

就这样就可以获取信息了,使用fs模块,写入json文件中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值