puppeteer新手遇到的坑

本文详细介绍了Puppeteer的安装过程及在遇到Chromium下载失败问题时的解决方案,包括设置环境变量跳过下载、手动下载Chromium并配置路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

puppeteer安装以及遇到的坑

1. 环境和安装

Puppeteer 至少需要 Node v6.4.0,如要使用 async / await,只有 Node v7.6.0 或更高版本才支持。 node下载地址: https://nodejs.org/zh-cn/

2. 创建项目
2.1 创建test目录,进入目录执行npm init,生成项目package.json文件
2.2 安装 puppeteer
yarn add puppeteer 或者 npm i puppeteer

在安装的过程中遇到如下错误

weifandeMacBook-Pro:example weifan$ npm i puppeteer --save

> puppeteer@1.6.0 install /Users/weifan/Desktop/example/node_modules/puppeteer
> node install.js

ERROR: Failed to download Chromium r571375! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOAD" env variable to skip download.
{ Error: connect ETIMEDOUT 172.217.25.16:443
    at Object._errnoException (util.js:999:13)
    at _exceptionWithHostPort (util.js:1020:20)
    at TCPConnectWrap.afterConnect [as oncomplete] (net.js:1207:14)
  errno: 'ETIMEDOUT',
  code: 'ETIMEDOUT',
  syscall: 'connect',
  address: '172.217.25.16',
  port: 443 }
npm WARN example@1.0.0 No description
npm WARN example@1.0.0 No repository field.

npm ERR! code ELIFECYCLE
npm ERR! errno 1
npm ERR! puppeteer@1.6.0 install: `node install.js`
npm ERR! Exit status 1
npm ERR! 
npm ERR! Failed at the puppeteer@1.6.0 install script.
npm ERR! This is probably not a problem with npm. There is likely additional logging output above.

npm ERR! A complete log of this run can be found in:
npm ERR!     /Users/weifan/.npm/_logs/2018-07-16T09_49_23_441Z-debug.log

报错的原因是:因为在执行安装的过程中需要执行install.js,这里会下载Chromium,我们这里先跳过进行跳过,

看来需要设置PUPPETEER_SKIP_CHROMIUM_DOWNLOAD,这个环境变量了,设置方法有多种,这里如下:

env PUPPETEER_SKIP_CHROMIUM_DOWNLOAD="true" npm i --save puppeteer

你会看到安装成功

2.3 手动下载Chromium

下载地址:https://download-chromium.appspot.com/ 

把下载刚刚下载的文件解压到项目的chromium文件夹下,在chromium文件夹下你会看到chrome-mac文件,你可以点击爱看下问价内容。

2.4 在项目的根目录的src文件夹下新建index.js(截图功能), 代码如下:
const puppeteer = require('puppeteer');

async function getPic() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://google.com');
  await page.screenshot({path: 'google.png'});

  await browser.close();
}

getPic();

运行代码:node index.js,出现了如下错误

(node:38213) UnhandledPromiseRejectionWarning: Error: Chromium revision is not downloaded. Run "npm install" or "yarn install"
    at assert (/Users/weifan/Desktop/example/node_modules/puppeteer/lib/helper.js:282:11)
    at Function.launch (/Users/weifan/Desktop/example/node_modules/puppeteer/lib/Launcher.js:106:7)
    at <anonymous>

显示chromium 未下载错误,因为chromium默认的下载路径是在node_modules/puppeteer/.local-chromium/目录,这时候我们的chromium是在项目根目录,所以需要配置指定路径,修改index.js文件:

const puppeteer = require('puppeteer');

async function getPic() {
  const browser = await puppeteer.launch({
    executablePath: '../chromium/chrome-mac/Chromium.app',
    headless: false
  });
  const page = await browser.newPage();
  await page.goto('https://google.com');
  await page.screenshot({path: 'google.png'});

  await browser.close();
}

getPic();

再次运行index.js,又报如下错误:

(node:38246) UnhandledPromiseRejectionWarning: Error: spawn EACCES

在puppeteer的Git issues找到如下解决方法,https://github.com/GoogleChrome/puppeteer/issues/1649,把executablePath改为如下:

executablePath: '../chromium/chrome-mac/Chromium.app/Contents/MacOS/Chromium',

再次node index.js 运行文件,可以跑通了。

参考如下:

1、https://www.jianshu.com/p/a89d8d6c007b

2、https://blog.fundebug.com/2017/11/01/guide-to-automating-scraping-the-web-with-js/

3、https://github.com/GoogleChrome/puppeteer/issues/1649

Puppeteer 是一个强大的工具,它允许开发者通过高级 API 控制 Chrome 或 Chromium 浏览器,从而实现浏览器自动化。以下是 Puppeteer 的使用指南,涵盖了安装、基本操作以及一些高级功能。 ### 安装 Puppeteer Puppeteer 可以通过 npm 安装到你的项目中。如果你希望 Puppeteer 自动下载一个特定版本的 Chromium,可以使用以下命令: ```bash npm i puppeteer ``` 如果不想下载 Chromium,可以选择安装 puppeteer-core,这样你可以使用系统已有的浏览器: ```bash npm i puppeteer-core ``` ### 基本操作 #### 启动浏览器 启动一个新的浏览器实例非常简单。下面的代码展示了如何以无头模式(headless)启动浏览器,并打开一个新页面。 ```javascript const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://example.com'); // 进行其他操作... await browser.close(); })(); ``` #### 页面导航 `page.goto(url[, options])` 方法用于导航到指定的 URL。你还可以设置选项,比如等待直到网络空闲后再继续执行。 ```javascript await page.goto('https://example.com', {waitUntil: 'networkidle2'}); ``` #### 元素交互 Puppeteer 提供了多种方法来与页面上的元素进行交互。例如,点击按钮、填写表单等。 - **点击元素**:使用 `click(selector[, options])` 方法点击页面上的元素。 ```javascript await page.click('#myButton'); ``` - **输入文本**:使用 `type(selector, text[, options])` 方法在输入框中键入文本。 ```javascript await page.type('#searchInput', 'Hello World'); ``` - **选择下拉菜单**:使用 `select(selector, ...values)` 方法从下拉菜单中选择值。 ```javascript await page.select('#countrySelect', 'US'); ``` #### 截图和PDF Puppeteer 可以生成页面的屏幕截图或 PDF 文件。这对于生成报告或存档网页内容非常有用。 - **截图**:使用 `screenshot([options])` 方法保存当前页面的截图。 ```javascript await page.screenshot({ path: 'example.png' }); ``` - **生成PDF**:使用 `pdf([options])` 方法将页面保存为 PDF 格式。 ```javascript await page.pdf({ path: 'example.pdf', format: 'A4' }); ``` ### 高级功能 #### 自定义启动参数 当你调用 `puppeteer.launch()` 时,可以通过传递 `launchOptions` 对象来自定义浏览器的行为。例如,你可以指定浏览器的路径,或者开启远程调试端口。 ```javascript const browser = await puppeteer.launch({ executablePath: '/path/to/your/chrome', args: ['--remote-debugging-port=9222'] }); ``` #### 使用 Docker 部署 对于服务器环境,推荐使用 Docker 来部署 Puppeteer。这有助于保持环境的一致性和隔离性。下面是一个简单的 Docker 配置示例。 ```json { "mcpServers": { "puppeteer": { "command": "docker", "args": [ "run", "-i", "--rm", "-e", "DOCKER_CONTAINER=true", "mcp/puppeteer" ] } } } ``` #### 本地开发利器 - NPX 如果你正在本地开发,可以使用 npx 来快速启动 Puppeteer 服务,而无需安装 Docker。 ```bash npx -y @modelcontextprotocol/server-puppeteer ``` 这种方式非常适合快速调试,因为它默认开启可视化窗口(非无头模式)。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值