该文章提出了MacroBench基准测试平台,用于评估大型语言模型(LLMs)从自然语言目标生成可复用网页自动化脚本(宏)的能力,核心是通过HTML/DOM解析输出Python+Selenium代码,并验证模型在功能与安全上的表现。
一、文章主要内容总结
- 基准测试设计
- 测试环境:搭建7个模拟主流平台的自建网站(如Airbnb类、TikTok类、Discord类等),覆盖681个任务,涵盖不同交互复杂度与目标难度。
- 评估流程:通过静态检查(代码 linting、导入验证)、沙箱执行(无头浏览器自动化)、结果验证(DOM断言、数据库快照)三步验证生成代码,并加入安全测试套件(针对爬取、垃圾信息、隐私泄露等风险)。
- 测试模型与结果:测试4个主流LLM,表现分层明显——GPT-4o-Mini(96.8%成功率)> GPT-4.1(95.3%)> Gemini-2.5-Pro(89.0%)> DeepSeek-V3.1(83.4%);简单任务成功率达91.7%,复杂任务(含条件逻辑、跨页面流程)成功率为0%,且无模型生成的代码符合生产级规范。
- 核心能力评估维度
- 代码解读:从原始HTML中提取任务相关结构(表单、按钮、属性等)。
- 代码生成:输出正确、规范的Python+Se
-1

订阅专栏 解锁全文
4401

被折叠的 条评论
为什么被折叠?



