
本文为「视觉爬虫开发:通过 Puppeteer 截图 + CV 定位动态元素坐标」的速查指南,帮助你快速掌握在小红书(https://www.xiaohongshu.com/)上使用 Puppeteer 结合 OpenCV 实现视频截图与评论采集的核心思路与代码示例。文章分为四大部分:功能点列表、常用代码片段、配置建议、快速测试方式,并集成爬虫代理设置,以便直接在项目中复用。
功能点列表
- 代理 IP 接入:使用爬虫代理的隧道模式,通过域名、端口、用户名、密码进行 HTTP/HTTPS 请求认证 (16yun.cn)。
- Cookie 与 User-Agent 设置:模拟真实浏览器会话,避免被反爬。
- Puppeteer 视频截图:定位视频元素并截取帧图,或全页截图后裁剪目标区域。
- 动态元素坐标获取:将 Puppeteer 截图结果导入 OpenCV,通过模板匹配定位元素坐标 。
- 评论采集:滚动法或点击“加载更多”获取评论列表,再通过 DOM 解析提取内容。
常用代码片段
1. 启动 Puppeteer 并接入爬虫代理
const puppeteer = require('puppeteer');
(async () => {
// 启动无头浏览器,接入亿牛云爬虫代理 www.16yun.cn
const browser = await puppeteer.launch({
args: [
'--no-sandbox',
'--disable-setuid-sandbox',
'--proxy-server=tcp://t.16yun.cn:31111' // 代理域名:端口 :contentReference[oaicite:3]{index=3}
]
});
const page = await browser.newPage();
// 设置代理认证(Tunnel 模式下 Puppeteer 自动支持用户名/密码)
await page.authenticate({
username: 'YOUR_PROXY_USER', // 亿牛云用户名 :contentReference[oaicite:4]{index=4}
password: <

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



