MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

-1

该文章提出了MacroBench基准测试平台,用于评估大型语言模型(LLMs)从自然语言目标生成可复用网页自动化脚本(宏)的能力,核心是通过HTML/DOM解析输出Python+Selenium代码,并验证模型在功能与安全上的表现。

一、文章主要内容总结

  1. 基准测试设计
    • 测试环境:搭建7个模拟主流平台的自建网站(如Airbnb类、TikTok类、Discord类等),覆盖681个任务,涵盖不同交互复杂度与目标难度。
    • 评估流程:通过静态检查(代码 linting、导入验证)、沙箱执行(无头浏览器自动化)、结果验证(DOM断言、数据库快照)三步验证生成代码,并加入安全测试套件(针对爬取、垃圾信息、隐私泄露等风险)。
    • 测试模型与结果:测试4个主流LLM,表现分层明显——GPT-4o-Mini(96.8%成功率)> GPT-4.1(95.3%)> Gemini-2.5-Pro(89.0%)> DeepSeek-V3.1(83.4%);简单任务成功率达91.7%,复杂任务(含条件逻辑、跨页面流程)成功率为0%,且无模型生成的代码符合生产级规范。
  2. 核心能力评估维度
    • 代码解读:从原始HTML中提取任务相关结构(表单、按钮、属性等)。
    • 代码生成:输出正确、规范的Python+Se
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值