利用Nodejs实现爬虫

原创

已于 2022-06-10 18:54:38 修改 · 4.7k 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

于 2021-04-25 21:03:30 首次发布

文章目录

前言

本学期期中作业是新闻爬虫及爬取结果的查询网站，作为只有c语言基础的小菜鸟，刚看到要求时还是一脸懵，通过半个学期的学习，借助老师的代码，撸起袖子加油干，跌跌撞撞地也实现了爬虫。先来看看啥是爬虫，爬虫就是个自动获取网络内容的程序，又称为网页蜘蛛，网络机器人......（来自百度百科...）ok 话不多说现在开始实现新闻爬虫以及爬取结果的查询网站。

一.工具安装

1.Nodejs

百度搜索nodejs进入官网

点击下载，找到自己需要的版本

按照提示一路next 安装完成在cmd中输入node -v可以查看安装版本

2.编码工具VsCode

这里因为以前写C/C++时下载过VScode所以稍微下个插件直接用了，也可以下载WebStorm，Sublime等等

WebStorm下载地址： WebStorm: The Smartest JavaScript IDE, by JetBrains

Sublime下载地址： Sublime Text - Text Editing, Done Right

VScode是一个轻量且强大的跨平台开源代码编辑器（IDE）打开VScode应用商店下载nodejs插件

3.安装MySQL

下载地址：MySQL :: Download MySQL Community Server

数据库根据自己需要的版本下载后面会详细描述

要下载的工具下载的差不多了，下面正式开始爬虫

二、引入模块

这里先看一下npm这个东西

npm就是Nodejs下的包管理器

允许用户从NPM服务器下载别人编写的第三方包到本地使用。
允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。
允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用

但是，npm的服务器位于国外可能会影响安装所以淘宝团队做了国内镜像cnpm，与官方同步频率目前为 10分钟一次以保证尽量与官方服务同步。

安装方法：

安装：命令提示符执行
npm install cnpm -g --registry=https://registry.npm.taobao.org
cnpm -v 来测试是否成功安装

通过改变地址来使用淘宝镜像

npm的默认地址是 https://registry.npmjs.org/
可以使用npm config get registry查看npm的仓库地址
可以使用npm config set registry https://registry.npm.taobao.org来改变默认下载地址，达到可以不安装cnpm就能采用淘宝镜像的目的，然后使用上面的get命令查看是否成功。

搞定之后就可以用cnpm来下载需要的包

之后可以根据需要引入不同的包，在npm网站可以对包的用法进行查询

比如

获取网页内容（http\request\superagent等）

筛选网页信息（cheerio）

输出或存储信息（console\fs\mongodb\mysql等）

下面简单介绍几个

1.request来获取网页内容

var request = require('request');

// 通过 GET 请求来读取 http://cnodejs.org/ 的内容
request('https://nba.hupu.com/', function (error, response, body) {
  if (!error && response.statusCode == 200) {
    // 输出网页内容
    console.log(body);
  }
});

运行之后得到