一.node是什么?
Node是一个让JavaScript能够在服务端运行的开发平台,它让JavaScript成为与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装。但是它真正火起来确是在近几年。
二.node的安装
在node.js的官网下载安装包,直接点击安装就可以了
这是node.js的官网
node的第三方插件
npm是node.js的一个包管理工具,一般在我们安装node.js的时候,已经安装,这里面有很多已经写好的包,可以供我们直接使用,下面我们就来使用一下用他里面的crawler,来抓取页面上的一下资源。
crawler的使用
爬虫
什么是爬虫?
Web爬虫就是一种自动访问页面的脚本,他可以在网页上面抓取原始数据,能够节省我们很多的时间,减轻在获取网页上的资源的负担。
下面是一个爬虫使用案例
步骤。
1.首先检查自己的npm时候安装好,使用node在终端运行,精准定位到当前的文件夹。
2.导包之前,先初始化,使用npm init -y
指令,在当前目录下就会出现一个package.json的文件
3.导入crawler包npm i crawler
,在当前目录就会出现两个文件package-lock.json和node_modules
如图:
// 导入crawler包
var Crawler = require("crawler");
// 导入fs模块
var fs = require("fs");
// 创建爬虫对象
var c = new Crawler({
// 最大的连接数
maxConnections : 10,
callback : function (error, res, done) {
if(error){
console.log(error);
}else{
var $ = res.$;
var str = "";
var Data = [];
$(".hero_list li ").each((index, Element) => {
const heroImage = $(Element).find(".pic>a>img").attr("data-src");
const heroName = $(Element).find(".name>a").text();
Data.push({
heroImage,
heroName
})
})
fs.writeFile("./data.json", JSON.stringify(Data), (err) => {
console.log("写入成功");
})
}
done();
}
});
c.queue('https://cqcn.fandom.com/zh/wiki/%E5%89%91%E5%A3%AB');
就这样就可以获取信息了,使用fs模块,写入json文件中