Headless Chrome入门,原来还有这样的工具。

本文介绍如何使用Headless Chrome与Puppeteer进行网页自动化操作,包括生成屏幕截图和PDF、爬取内容、自动测试及性能诊断。Puppeteer作为Node.js API,提供了控制headless Chrome的能力,适用于SPA预渲染、表单提交、UI测试等多种场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言


本文的原文连接是: https://blog.youkuaiyun.com/freewebsys/article/details/81665552
未经博主允许不得转载。
博主地址是:http://blog.youkuaiyun.com/freewebsys

1,关于Headless Chrome


Puppeteer 是一个控制 headless Chrome 的 Node.js API 。它是一个 Node.js 库,通过 DevTools 协议提供了一个高级的 API 来控制 headless Chrome。它还可以配置为使用完整的(非 headless)Chrome。

在浏览器中手动完成的大多数事情都可以通过使用 Puppeteer 完成,下面是一些入门的例子:

生成屏幕截图和 PDF 页面
检索 SPA 并生成预渲染内容(即“SSR”)
从网站上爬取内容

自动提交表单,UI测试,键盘输入等

创建一个最新的自动测试环境。使用最新的 JavaScript 和浏览器功能,在最新版本的 Chrome 中直接运行测试

捕获网站的时间线跟踪,以帮助诊断性能问题。

项目地址:
https://github.com/GoogleChrome/puppeteer

2,使用


写的很详细:
https://developers.google.com/web/updates/2017/04/headless-chrome
有翻译:
https://www.jianshu.com/p/aec4b1216011

执行alias:

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
chrome --headless --disable-gpu --dump-dom https://www.sogou.com/

和直接查看页面当中的html还是不一样的。是动态加载的呢。
这个在爬虫进行数据抓取的是还是非常的好用的。
同时可以使用。puppeteer 进行编程,让自动化抓取程序。
这个可是真正的浏览器的agent呢。

还能进行pdf打印呢:

chrome --headless --disable-gpu --print-to-pdf https://www.sogou.com/

在这里插入图片描述

3,总结


技术的更新还是非常快的。
在进行数据抓取的时候。可以使用chrome 的headless 模式,用程序抓取。
是渲染后的 html js 代码呢。还可以通过 puppeteer 进行编程。

本文的原文连接是:
https://blog.youkuaiyun.com/freewebsys/article/details/81665552

博主地址是:http://blog.youkuaiyun.com/freewebsys

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值