Web自动化：Browser Use+Playwright驱动AI Agent

最新推荐文章于 2025-09-11 03:28:24 发布

原创最新推荐文章于 2025-09-11 03:28:24 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#软件测试 #职场经验 #自动化测试 #Web自动化 #Browser Use #Playwright #深度学习

软件测试同时被 3 个专栏收录

2697 篇文章

订阅专栏

职场经验

1479 篇文章

订阅专栏

自动化测试

462 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

Browser Use是一个开源项目官网：Browser Use - Enable AI to control your browser，专为大语言模型（LLM）设计的智能浏览器工具，能够让AI像人类一样自然的浏览和操作网页，支持多标签页管理，视觉识别，内容提取，并能记录和重复执行特定动作。

01 Browser Use 的技术原理

集成 LLM 模型：集成大型语言模型（LLM）理解和执行复杂的网页任务。
浏览器自动化：用自动化工具如 Playwright，模拟人类用户的浏览器操作。
异步编程：支持异步编程，让 AI 代理能非阻塞地执行网络请求和浏览器操作。
自定义动作注册：支持开发者用装饰器或 Pydantic 模型注册自定义动作，扩展 AI 代理的功能。
上下文管理：基于浏览器上下文（Browser Context）管理不同代理的独立会话，保持状态隔离。
XPath 和元素定位：用 XPath 和其他方法定位网页元素，实现精确的网页交互。

02 Playwright是什么

playwright是由微软开发的Web UI自动化测试工具，支持多种语言如Python，js，Java，其核心特性如下：

跨浏览器兼容性：支持Chromium、Firefox和WebKit。
灵活的运行模式：提供无头模式和有头模式，便于调试与持续集成。
智能的等待机制：减少了显式等待的必要性。
全面的API支持：能处理页面交互、网络请求以及文件上传下载等复杂操作。

03 快速开始

Browser-use 需要 Python 3.11 或更高版本。首先，通过 pip 安装该工具：

接下来，安装 Playwright，这是 Browser-use 的依赖项：

还需要调用大语言模型的第三方库

本地环境增加.env文件用于保存大模型的KEY放到环境变量中，保证隐私

04 WebUI自动化demo

提示词总结

Browser Use中定义了提示词类，详情请看site-packages/browser_use/agent/system_prompt.md文件，该文件中有详细的系统提示词要求，比如给AI设定了身份，告知AI需要做什么，以什么格式返回。

输入格式以及内容

输入内容包括：

-任务

-之前的步骤

-当前网址

-打开的标签页

-交互元素

-[index]文本

索引：用于交互的数字标识符
类型：HTML元素类型（按钮、输入框等）
文本：元素描述示例： [33]提交表单
带[]数字索引的元素是可交互的
无[]的元素仅提供上下文

05 响应规则

响应格式：必须始终以有效JSON格式响应，格式如下： {"current_state": {"evaluation_previous_goal": "成功|失败|未知 - 分析当前元素和图片，检查之前的目标/动作是否按预期完成。说明是否出现意外情况", "memory": "描述已完成事项和需要记住的内容。必须具体说明操作次数和剩余数量。