一文掌握 browser-use:基于 DeepSeek 的浏览器自动化实战

一、项目定位与技术价值

1.1 智能体开发新范式

图片

Browser-Use 作为开源 AI 自动化工具,通过集成 DeepSeek 等大模型与 Playwright 浏览器引擎,实现自然语言驱动的浏览器操作。其技术价值体现在:

低代码开发:仅需自然语言指令即可生成自动化脚本

多模态交互:融合 DOM 解析(精度99%)+视觉识别

企业级扩展:支持私有化部署与多智能体协同

1.2 与 DeepSeek 的深度整合

Browser-Use 对 DeepSeek 的适配优势:

模型微调支持:可针对电商、金融等场景优化提示词

API 调用优化:支持流式响应与长文本处理

成本控制:DeepSeek 推理成本仅为 GPT-4 的 1/5

二、核心架构解析

2.1 模块化设计

模块

核心功能

DeepSeek 整合点

Agent

任务规划与状态管理

调用 deepseek-chat 生成操作链

Controller

动作注册与执行

解析模型输出的 JSON 指令

Browser

浏览器实例控制

结合视觉模型处理验证码

DOM

元素定位与信息提取

生成 XPath 供模型决策

2.2 执行流程时序

1. 初始化阶段:

加载 DeepSeek API 密钥

启动带 Cookie 的 Chrome 实例

2. 决策阶段:

# 模型输出示例  {    "action": "click_element",    "params": {"xpath": "//button[@id='submit-order']"}  }  

3. 执行阶段:

Playwright 执行点击/输入等操作

失败时自动重试(最大重试次数3次)

三、环境配置指南

3.1 基础安装

# 创建 Python 3.11 虚拟环境  conda create -n browser_use python=3.11  conda activate browser_use  
# 安装核心依赖  pip install browser-use playwright -i https://pypi.tuna.tsinghua.edu.cn/simple  playwright install chromium  # 安装 Chromium 浏览器

3.2 DeepSeek 配置

1. 获取 API Key:

  • 登录 DeepSeek 控制台 

2. 配置环境变量:

echo "DEEPSEEK_API_KEY=sk-your-key-here" >> .env

四、实战案例:电商自动下单

4.1 场景设计

完成淘宝购物全流程:

  1. 登录账号(使用本地保存的 Cookie)

  2. 搜索「机械键盘」并筛选「销量排序」

  3. 选择第一个商品加入购物车

  4. 提交订单并填写收货地址

4.2 代码实现

from langchain_openai import ChatOpenAI  from browser_use import Agent, BrowserConfig, Browser  import asyncio  import os  
# 配置本地 Chrome 路径(需提前登录淘宝)  config = BrowserConfig(      chrome_instance_path="C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe",      headless=False  # 显示浏览器界面(网页10)  )  
async def taobao_order():      browser = Browser(config=config)      llm = ChatOpenAI(          base_url="https://api.deepseek.com/v1",          model="deepseek-chat",          api_key=os.getenv("DEEPSEEK_API_KEY")      )  
    agent = Agent(          browser=browser,          task='''          1. 打开 taobao.com 并等待登录完成          2. 搜索"机械键盘",按销量排序          3. 选择第一个商品进入详情页          4. 点击"加入购物车"          5. 进入购物车提交订单          6. 选择默认地址并支付          ''',          llm=llm,          max_steps=20  # 最大执行步骤(网页6)      )  
    await agent.run()      await browser.close()  
asyncio.run(taobao_order())  

4.3 关键技术点

登录态保持:利用已登录的 Chrome 实例绕过验证 

元素定位策略:

# DeepSeek 生成的 XPath  "//div[contains(text(),'销量')]/ancestor::button"  

异常处理:

商品缺货时自动选择下一商品

支付失败时截图保存

五、进阶应用:数据采集与RAG

5.1 竞品价格监控系统​​​​

task = '''  1. 打开 jd.com 搜索"无线鼠标"  2. 采集前10个商品的:     - 名称     - 价格     - 评论数  3. 保存为 CSV 文件  '''  
# 输出数据结构化  class Product(BaseModel):      name: str      price: float      reviews: int  
controller = Controller(output_model=List[Product])  

5.2 技术增强点

动态页面处理:

await page.wait_for_selector("//div[@class='price']", timeout=5000)  

反爬对抗:

  • 随机滑动速度模拟

  • IP 轮换机制(需配合代理池)

六、常见问题排查

问题现象

解决方案

DeepSeek 返回内容为空

检查 .env 文件密钥格式

浏览器无法启动

确认 Chrome 路径与版本匹配

元素定位失败

启用 use_vision=True 增强识别

执行速度过慢

设置 headless=True 启用无头模式

七、资源获取

✅ 项目地址:

GitHub:https://github.com/browser-use/browser-use 

中文文档:https://docs.browser-use.com/introduction 

✅ 扩展学习:

DeepSeek 微调指南:https://platform.deepseek.com/finetune

Playwright 官方文档:https://playwright.dev/python

八、推荐学习

行业首个「知识图谱+测试开发」深度整合课程【人工智能测试开发训练营】,赠送智能体工具。

扫码进群,领取完整版大纲

图片

推荐阅读

DeepSeek实践指导手册、人工智能在软件测试中的应用、我们是如何测试人工智能的?

Deepseek52条喂饭指令

在本地部署属于自己的 DeepSeek 模型,搭建AI 应用平台

DeepSeek 大模型与智能体公开课,带你从零开始,掌握 AI 的核心技术,开启智能未来!

深度解析:如何通过DeepSeek优化软件测试开发工作,提升效率与准确度

DeepSeek、文心一言、Kimi、豆包、可灵……谁才是你的最佳AI助手?

从零到一:如何构建一个智能化测试平台?

DeepSeek-R1+ Ollama 本地部署全攻略

DeepSeek与Playwright结合:利用AI提升自动化测试脚本生成与覆盖率优化

DeepSeek大模型6大部署模式解析与探索测试开发技术赋能点

爱测智能化服务平台

测开人必看!0代码+AI驱动,测试效率飙升300% ——霍格沃兹测试开发学社‌重磅上新‌「爱测智能化服务平台」限时开放体验!

一码难求的Manus:智能体技术如何重构生产力?测试领域又有哪些新机遇?

开源工具

AppCrawler 开源版
https://github.com/seveniruby/AppCrawler

Hogwarts-Browser-Use 开源版
指导安装贴:hogwarts-browser-use - 开源项目 - 爱测-测试人社区


专业版 (7天免费试用)

自动遍历测试框架 AppCrawler 专业版
通用数据驱动测试框架 hogwarts-ddt 专业版
测试智能体框架 hogwarts-agent 专业版

学社提供的资源

教育官网:霍格沃兹测试开发学社
科技官网:测吧(北京)科技有限公司
火焰杯就业选拔赛:火焰杯就业选拔赛 - 霍格沃兹测试开发学社
火焰杯职业竞赛:火焰杯职业竞赛 - 霍格沃兹测试开发学社
学习路线图:霍格沃兹测试开发学社
公益社区论坛:爱测-测试人社区 - 软件测试开发爱好者的交流社区,交流范围涵盖软件测试、自动化测试、UI测试、接口测试、性能测试、安全测试、测试开发、测试平台、开源测试、测试教程、测试面试题、appium、selenium、jmeter、jenkins
公众号:霍格沃兹测试学院
视频号:霍格沃兹软件测试
ChatGPT体验地址:霍格沃兹测试开发学社

Docker

Docker cp命令详解:在Docker容器和主机之间复制文件/文件夹

Docker pull 命令详解:从镜像仓库获取镜像

深入理解 Docker Run 命令:从入门到精通

Docker Exec 命令详解与实践指南

Docker Kill/Pause/Unpause命令详细使用指南

Docker Logs命令详解

Selenium

多任务一次搞定!selenium自动化复用浏览器技巧大揭秘

如何使用Selenium处理隐藏元素

软件测试/测试开发/全日制|selenium NoSuchDriverException问题解决

软件测试/人工智能|解决Selenium中的异常问题:“error sending request for url”

Python

使用Python爬取豆瓣电影影评:从数据收集到情感分析

如何使用 Python 实现十进制转二进制的程序

Python教程:如何获取颜色的RGB值

Python处理日期的利器—日期转换指南

Python字符串的编码与解码

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值