Puppeteer设置浏览器代理的三种思路

最新推荐文章于 2025-10-18 15:05:20 发布

翻译最新推荐文章于 2025-10-18 15:05:20 发布 · 2w 阅读

爬虫与反爬虫同时被 3 个专栏收录

25 篇文章

订阅专栏

chrome

19 篇文章

订阅专栏

爬虫数据抓取

15 篇文章

订阅专栏

本文探讨了在使用Puppeteer框架操作浏览器时设置代理的三种主要方法：通过启动参数直接设置、通过自定义代理服务器控制逻辑以及利用拦截器与第三方库实现动态代理更换。这些方法适用于不同场景，如大规模系统中的统一代理管理和小规模系统中的灵活代理切换。

0 背景

Puppeteer是google推出的操作浏览器的框架。当我们通过框架操作浏览器去访问页面通常需要设置代理。本文简要总结设置代理的方式。

1 通过启动参数设置代理

我们通过puppeteer启动浏览通常可以指定参数,通过–proxy-server参数[1]指定代理。http及https请求的将通过代理服务器访问。若每次需要更换代理就需要重新通过launch方法来启动浏览器。

    const browser = await puppeteer.launch({
        args: [
            '--disable-setuid-sandbox',
            '--no-sandbox',
            '--proxy-server=10.24.51.125:8411',
            '--ignore-certificate-errors',
            '--window-size=375,812',
            '--remote-debugging-port=9222'
        ],
        ignoreHTTPSErrors: true,
        headless: false,
        executablePath: "/chrome-mac/Chromium.app/Contents/MacOS/Chromium",
    });

这种方式启动后，默认会有一个打开的page，因此不用再重新打开page对象。用默认的page进行后续访问即可。

const [page] = await browser.pages();

2 通过代理服务器控制代理逻辑

可以看到–proxy-server设置了代理后，如果ip是一个固定的目标代理地址那么需要重新启动浏览器才能更换。如果我们自己开发了一个代理服务，与实际代理机器交互的逻辑都集中在这个服务上，那么实际代理机器的访问通过我们的代理服务控制，这样我们每次启动浏览器后就固定一个地址即可。

3 通过拦截器与第三方库实现设置代理功能

1中介绍的方式需要每次重新调用launch方法启动浏览器更换IP。但我们知道现在很多http库都可以设置代理。例如在Java中可以通过okhttp,unirest等库来设置代理。同理nodejs中也有这样的库。我们不再通过–proxy-server指定地址，而是通过puppeteer的拦截器功能，将请求拦截，随后改写请求。再通过第三方的http库设置上代理信息。这样就可以达到不通过launch重启浏览器而是直接在一个page中设置代理的目的。每次有新请求来了也可以达到动态变化的目标。不过这样处理逻辑还是比较复杂，涉及改写请求，响应结果缓存处理等问题。这篇讨论[2]已经给出了处理方式，可以参考。

4 总结

如果在上规模的系统中代理控制一般统一由统一的代理服务来管理，使用时通过proy-server指定代理信息即可。如果是小规模系统，都是集中式控制可以考虑使用1，3的方式处理。

5 参考资料

[1]chrome命令行参数,https://peter.sh/experiments/chromium-command-line-switches/
[2]代理设置的几种方法讨论,https://github.com/GoogleChrome/puppeteer/issues/678

7 条评论

醉悠夢長眠 2020.01.22
您好，我有个问题想要问您一下，我在用puppeteer爬取网站信息的时候 [code=javascript] await new_Page.goto(new_url, { waitUntil: 'networkidle2', //网络空闲说明已加载完毕 timeout:50000 }); [/code] 这个函数跳转的到相应的URl之后，浏览器不做任何响应，我尝式着截了一张当时的图，发现是一张白板，里边什么也没有，请问一下您知道这是为什么吗》
- qq_44735716回复醉悠夢長眠 2022.04.11
  大概率是被网站反爬机制限制了
- FserSuN回复huanshiwushuang 2020.09.25
  嗯，真人操作好点。拦截打开窗口事件然后代理试过么？
- huanshiwushuang回复FserSuN 2020.09.22
  如何能转换为当前页打开？难道修改页面dom，拦截js。我觉得还是尽可能保持真人操作流程较好。
- FserSuN回复huanshiwushuang 2020.09.18
  1.click点击链接打开新标签页，可以转换成在当前窗口打开。随后模块可在当前页中拦截。 2.我们自己也开发的代理服务，不是基于node。
- huanshiwushuang回复FserSuN 2020.09.13
  [reply]Revivedsun[/reply]老哥我尝试了 puppeteer-interceptor 和 puppeteer-proxy 模块，都无法在 page.click() 打开新窗口的时候，拦截到发出的第一个 document请求，如此这般的话，恐怕只能选择方案2，在启动的时候固定一个 proxy了。 puppeteer-interceptor 模块是用的 CDPSession，也无法捕捉到click新开窗口的第一个document请求 puppeteer-proxy 是 onrequest 拦截然后 got 代理请求的，也无法捕捉到click新开窗口的第一个document请求关于方案2 。node中你有什么好的代理模块推荐吗？可以方便的改写 request 和 response
- FserSuN回复醉悠夢長眠 2020.01.23
  [reply]qq_38101834[/reply]单纯给一段goto代码看不出来问题，您具体访问的网站，运行环境，配置信息是什么？