nodejs 做一个简单的爬虫

最新推荐文章于 2025-04-16 22:50:47 发布

[Object object]

最新推荐文章于 2025-04-16 22:50:47 发布

阅读量9.1w

点赞数 14

分类专栏： nodejs 爬虫文章标签：爬虫 nodejs 草榴

本文链接：https://blog.youkuaiyun.com/zhang6223284/article/details/80142111

版权

这篇博客介绍了如何使用Node.js从武大计算机学院和草榴技术讨论区抓取数据，包括安装Node.js，创建项目，安装cheerio和request库，处理编码问题，并实现简单爬虫代码。博主分享了遇到的问题及解决方案，如添加User-Agent字段，处理编码转换，以及防止请求过快导致的禁止访问问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言

（前言是废话可以略过）感觉我写的已经很基础了，就算没有编程经验的人应该也能做出来吧？
起因是昨天中午在 stromzhang 的知识星球（会不会有广告嫌疑）上看到一个球友分享了这么一篇东西
这里写图片描述
链接如下：
今日头条街拍，又到养眼的季节
作为一个程序员，到现在还没尝试过爬虫，感觉自己很 low，当然不是为了街拍图片。
点进去一看，好吧，是我并没有用过的 python。
但是既然已经点燃了我想爬的愿望，不爬的话就很难受。因为学过 js，知道 js 也可以做爬虫，于是到网上搜了一下，万能的 js 果然无所不能。
于是在网上搜到了这么一篇文章手把手教你做爬虫—基于NodeJs 于是就按照他的步骤开始做，不过北大的微电子学院好像禁止访问了，大概是被爬的次数太多，服务器崩了？还有人说爬完一次之后 IP 就会被禁止访问。
既然这样，只能拿武大开刀了。

准备工作

首先，你需要下载 nodejs，这个应该没啥问题吧
原文要求下载 webstrom，我电脑上本来就有，但其实不用下载，完全在命令行里面操作就行

创建工程

准备工作做完了，下面就开始创建工程了

首先，在你想要放资源的地方创建文件夹，比如我在 E 盘里面创建了一个 myStudyNodejs 的文件夹
在命令行里面进入你创建的文件夹如图
进入 e 盘：E：
进入文件夹：cd myStudyNodejs（你创建的文件夹的名字）
注意全是英文符号
初始化项目，在你创建的文件夹下面运行 npm init 初始化项目
一路回车，最后输个 yes 就行
运行完以后，会在文件夹里面生成一个 package.json 的文件，里面包含了项目的一些基本信息。
安装所需要的包
在所创建的文件夹的目录下运行
npm install cheerio –save
npm install request -save
爬武大的话，这两个包就够了，如果想爬草榴需要额外的转换编码的包，windows 上面是
npm install iconv-lite -save
Mac 上面是 npm install iconv -save
运行结果应该第二幅图这样，中间手滑少写了个字母
创建文件
在你所创建的文件夹下面创建一个 data 文件夹用于保存爬到的文本数据。
创建一个 image 文件夹用于保存图片数据。
创建一个 js 文件用来写程序。比如 study.js。（创建一个记事本文件将 .txt 改为 .js）
说明 –save 的目的是将项目对该包的依赖写入到 package.json 文件中。

武大计算机学院新闻爬虫代码

下面就是武大计算机学院新闻的爬虫代码了，复制到创建的 .js 文件中，保存。

var http = require('http');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var i = 0;
//初始url 
var url = "http://cs.whu.edu.cn/a/xinwendongtaifabu/2018/0428/7053.html"; 

function fetchPage(x) {
        //封装了一层函数
  startRequest(x); 
}

function startRequest(x) {
   
     //采用http模块向服务器发起一次get请求      
     http.get(x, function (res) {
        
        var html = '';        //用来存储请求网页的整个html内容
        var titles = [];    
        res.setEncoding('utf-8'); //防止中文乱码
     //监听data事件，每次取一块数据
     res.on('data', function (chunk) {
      
	      html += chunk;
	 });
     //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数
     res.on('end', function () {
   
         var $ = cheerio.load(html); //采用cheerio模块解析html
         var news_item = {
   
          //获取文章的标题
          title: $('div#container dt').text().trim(),
          i: i = i + 1,     
       };

	  console.log(news_item);     //打印新闻信息
	  var news_title = $('div#container dt').text().trim();
	  savedContent($,news_title);  //存储每篇文章的内容及文章标题
	  savedImg($,news_title);    //存储每篇文章的图片及图片标题
       //下一篇文章的url
       var nextLink="http://cs.whu.edu.cn" + $("dd.Paging a").attr('href');
       str1 = nextLink.split('-');  //去除掉url后面的中文
       str = encodeURI(str1[0]);  
       //这是亮点之一，通过控制I,可以控制爬取多少篇文章.武大只有8篇，所以设置为8
       if (i <= 8) {
                   
          fetchPag

最低0.47元/天解锁文章