Puppeteer 操作

Puppeteer实战指南

二、实战经验

搭建一个Puppeteer工程

页面元素选取

页面操作的方式

页面操作与写法

点击操作

点击某个元素的操作,遵循CSS的selector语法

https://www.runoob.com/cssref/css-selectors.html


await page.click(".tab-list .tab:first-child")

另一种点击方式,通过元素方式点击


const loginBtn = await page.$('body > div.component-popup > div > div > div > div:nth-child(6)'); await loginBtn.click();

鼠标操作

page.mouse.down

await page.mouse.down({ button: 'right' });
await page.mouse.up({ button: 'right' });
await page.waitForTimeout(1000)

耗时指标统计

window.performance.now()返回的时间戳没有被限制在一毫秒的精确度内,相反,它们以浮点数的形式表示时间,精度最高可达微秒级。

另外一个不同点是,window.performance.now()是以一个恒定的速率慢慢增加的,它不会受到系统时间的影响(系统时钟可能会被手动调整或被 NTP 等软件篡改)。另外,performance.timing.navigationStart + performance.now() 约等于 Date.now()


performance.now();

Promise 对象用于表示一个异步操作的最终完成(或失败)及其结果值。

时间计算方式

如果不通过平台的方式,如何计算对应的耗时数据

平台侧的数据处理方式,如何做一个类似的平台

requestAnimationFrame 通过判断帧的变化

waitForSelector 等待元素出现为止

计时器 ?判断元素出来的耗时

Listener,这种其实还是通过帧变化来判断计算耗时

整体帧变化之后,才进行操作。

async addListener() {
      await this.page.evaluate(() => {
        window.$global$.addEventListener('keydown', () => {
          if (window.$global$.fsPerfLogger.key) {
            const startTimestamp = performance.now();
            requestAnimationFrame(() => {
              const endTimestamp = performance.now();
              window.$global$.fsPerfLogger.end(endTimestamp - startTimestamp);
            });
          }
        }, true);
      });

### 使用 Puppeteer 操作 React 跆由实现页面导航或数据抓取 Puppeteer 是一个强大的 Node.js 库,用于控制无头 Chrome 或 Chromium 浏览器。它可以模拟用户操作,例如点击按钮、填写表单以及导航到不同的页面。在操作 React 应用程序时,可以利用 Puppeteer 来触发路由变化并抓取动态内容。 #### 1. 初始化 Puppeteer 和目标页面 首先需要启动 Puppeteer 并加载目标页面。以下是一个基本的初始化代码示例: ```javascript const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); // 启动浏览器 const page = await browser.newPage(); // 创建新页面 await page.goto('http://example.com'); // 导航到目标页面 })(); ``` #### 2. 触发 React 路由变化 React 路由通常通过 `history.push` 或 `history.replace` 方法进行导航。使用 Puppeteer 可以通过执行 JavaScript 代码来模拟这些操作。例如: ```javascript await page.evaluate(() => { window.history.pushState({}, '', '/new-page'); }); ``` 上述代码将 URL 更改为 `/new-page`[^1]。需要注意的是,React 应用程序可能不会立即响应 URL 的变化。为了确保 React 组件正确渲染,可以通过以下方法等待页面更新: ```javascript await page.waitForSelector('.some-selector', { timeout: 5000 }); // 等待特定选择器出现 ``` #### 3. 抓取动态内容 当页面完成渲染后,可以使用 Puppeteer 提供的方法提取所需的数据。例如,使用 `page.$eval` 或 `page.$$eval` 获取 DOM 元素的内容: ```javascript const content = await page.$eval('body', el => el.textContent); // 提取 body 的文本内容 console.log(content); ``` 如果需要更复杂的 DOM 操作,可以传递自定义函数到 `page.evaluate` 中: ```javascript const data = await page.evaluate(() => { const elements = Array.from(document.querySelectorAll('.item')); // 获取所有带有 .item 类的元素 return elements.map(el => el.innerText); // 提取每个元素的文本内容 }); console.log(data); ``` #### 4. 处理单页应用 (SPA) 的预渲染限制 对于 Vue 或 React 的单页应用,如果使用的是 `hash` 路由策略,则无法直接进行预渲染。因此,建议切换到 `history` 路由模式,并结合 Puppeteer 实现动态内容抓取[^2]。 #### 5. 配置 Puppeteer 的高级选项 在实际应用中,可以根据需求调整 Puppeteer 的配置。例如,设置超时时间、禁用图片加载等: ```javascript const browser = await puppeteer.launch({ headless: true, // 是否启用无头模式 args: ['--no-sandbox', '--disable-setuid-sandbox'], // 添加额外参数 defaultViewport: null, // 设置默认视口大小 }); const page = await browser.newPage(); await page.setRequestInterception(true); // 拦截请求 page.on('request', request => { if (['image', 'stylesheet'].includes(request.resourceType())) { request.abort(); // 忽略图片和样式表 } else { request.continue(); // 允许其他资源加载 } }); ``` #### 6. 示例:完整流程 以下是一个完整的示例,展示如何使用 Puppeteer 操作 React 路由并抓取动态内容: ```javascript const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch({ headless: true }); const page = await browser.newPage(); await page.goto('http://example.com'); // 触发路由变化 await page.evaluate(() => { window.history.pushState({}, '', '/new-page'); }); // 等待页面更新 await page.waitForSelector('.content', { timeout: 5000 }); // 提取动态内容 const content = await page.$eval('.content', el => el.textContent); console.log(content); await browser.close(); })(); ``` ### 注意事项 - 确保目标网站允许爬取数据,遵守相关法律和网站的 `robots.txt` 文件。 - 对于复杂的应用程序,可能需要处理异步加载(如 `fetch` 请求),可以通过监听网络事件来解决: ```javascript await page.waitForResponse(response => response.url().includes('/api/content')); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狂点engineer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值