视觉爬虫开发：通过Puppeteer截图+CV定位动态元素坐标_puppeteer 指定页面中的元素截图-优快云博客

爬虫代理

本文为「视觉爬虫开发：通过 Puppeteer 截图 + CV 定位动态元素坐标」的速查指南，帮助你快速掌握在小红书（https://www.xiaohongshu.com/）上使用 Puppeteer 结合 OpenCV 实现视频截图与评论采集的核心思路与代码示例。文章分为四大部分：功能点列表、常用代码片段、配置建议、快速测试方式，并集成爬虫代理设置，以便直接在项目中复用。

功能点列表

代理 IP 接入：使用爬虫代理的隧道模式，通过域名、端口、用户名、密码进行 HTTP/HTTPS 请求认证 (16yun.cn)。
Cookie 与 User-Agent 设置：模拟真实浏览器会话，避免被反爬。
Puppeteer 视频截图：定位视频元素并截取帧图，或全页截图后裁剪目标区域。
动态元素坐标获取：将 Puppeteer 截图结果导入 OpenCV，通过模板匹配定位元素坐标。
评论采集：滚动法或点击“加载更多”获取评论列表，再通过 DOM 解析提取内容。

常用代码片段

1. 启动 Puppeteer 并接入爬虫代理

const puppeteer = require('puppeteer');

(async () => {
   
   
  // 启动无头浏览器，接入亿牛云爬虫代理 www.16yun.cn
  const browser = await puppeteer.launch({
   
   
    args: [
      '--no-sandbox',
      '--disable-setuid-sandbox',
      '--proxy-server=tcp://t.16yun.cn:31111'  // 代理域名:端口 :contentReference[oaicite:3]{index=3}
    ]
  });
  const page = await browser.newPage();

  // 设置代理认证（Tunnel 模式下 Puppeteer 自动支持用户名/密码）
  await page.authenticate({
   
   
    username: 'YOUR_PROXY_USER',  // 亿牛云用户名 :contentReference[oaicite:4]{index=4}
    password: <