从网页中提取结构化数据：Puppeteer和Cheerio的高级技巧

最新推荐文章于 2025-08-18 21:06:41 发布

原创

最新推荐文章于 2025-08-18 21:06:41 发布 · 781 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Puppeteer #Cheerio #网络爬虫 #网页爬虫 #爬虫代理 #亿牛云

本文介绍了如何使用Puppeteer和Cheerio进行网页数据抓取，包括使用代理IP应对反爬虫、处理动态内容、以及优化性能。通过实例演示了从豆瓣电影网站提取数据并保存到CSV的过程。

导语

网页数据抓取是一种从网页中提取有用信息的技术，它可以用于各种目的，如数据分析、竞争情报、内容聚合等。然而，网页数据抓取并不是一件容易的事情，因为网页的结构和内容可能会随时变化，而且有些网站会采用反爬虫措施，阻止或限制爬虫的访问。因此，我们需要使用一些高级的技巧，来提高爬虫的效率和稳定性。

概述

在本文中，我们将介绍两个常用的网页数据抓取工具：Puppeteer和Cheerio。Puppeteer是一个基于Node.js的无头浏览器库，它可以模拟浏览器的行为，如打开网页、点击元素、填写表单等。Cheerio是一个基于jQuery的HTML解析库，它可以方便地从HTML文档中提取数据，如选择器、属性、文本等。我们将结合这两个工具，展示如何从网页中提取结构化数据，并给出一些高级技巧，如使用代理IP、处理动态内容、优化性能等。

正文

使用代理IP提高爬虫效果

代理IP是一种隐藏真实IP地址的方法，它可以让爬虫伪装成不同的用户或地区访问网站，从而避免被封禁或限速。使用代理IP的方法有很多，例如使用第三方服务、自建代理池等。在本文中，我们将使用亿牛云爬虫代理作为示例，它提供了稳定、快速、安全的代理IP服务，并支持多种协议和认证方式。

要使用亿牛云爬虫代理，我们需要先注册一个账号，并获取域名、端口、用户名和密码。然后，在Puppeteer中，我们可以通过设置launch方法的args参数，来指定代理IP地址和认证信息。例如：

// 引入puppeteer模块
const puppeteer = require('puppeteer');

// 定义亿牛云 爬虫加强版代理的域名、端口、用户名和密码
const proxyDomain = 'www.16yun.cn';
const proxyPort = '9020';
const proxyUser = '16YUN';
const proxyPass = '16IP';

// 启动无头浏览器，并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${
     
     proxyDomain}:${
     
     proxyPort}`,
    `--proxy-auth=${
     
     proxyUser}:${
     
     proxyPass}`
  ]
});

这样，我们就可以通过亿牛云爬虫代理访问任何网站了。

处理动态内容

动态内容是指那些不是在网页加载时就存在的内容，而是通过JavaScript或Ajax等技术在运行时生成或更新的内容。例如，有些网站会使用分页或滚动加载来显示更多数据，或者使用下拉菜单或按钮来切换不同的视图。这些动态内容对于普通的HTML解析器来说是不可见的，因此我们需要使用Puppeteer来模拟浏览器的交互行为，来触发或获取这些内容。

在Puppeteer中，我们可以使用page对象来操作网页。page对象提供了很多方法和事件，来模拟用户的输入和反馈。例如：

page.goto(url)：打开一个网页
page.waitForSelector(selector)：等待一个元素出现
page.click(selector)：点击一个元素
page.evaluate(function)：在网页中执行一个函数
page.on(event, handler)：监听一个事件

使用这些方法，我们可以实现很多复杂的交互逻辑，来处理动态内容。例如，假设我们要从一个电商网站中提取商品的名称、价格和评分，但是这些数据是通过滚动加载的，我们可以使用以下代码：

// 引入puppeteer和cheerio模块
const puppeteer = require('puppeteer');
const cheerio = require('cheerio');

// 定义目标网址
const url = 'https://www.amazon.com/s?k=iphone';

// 启动无头浏览器，并设置亿牛云代理IP地址和认证信息
const browser = await puppeteer.launch({
   
   
  args: [
    `--proxy-server=${
     
     proxyDomain}:${
     
     proxyPort}`,
    `--proxy-auth=${
     
     proxyUser}:${
     
     proxyPass}`
  ]
});