过去十年,前端测试工具从 Selenium 到 Cypress,再到 Playwright,每一次迭代都在降低 UI 自动化的门槛。但无论工具多么先进,测试人员始终要写各种选择器、断言语句,维护一堆容易随页面变动而失效的脚本。直到 Midscene.js 出现,才真正把「写测试」变成了「说测试」。
本文将深入解析 Midscene.js 的技术原理、使用方式、应用场景,以及它可能带来的行业变革。

一、Midscene.js 是什么?
Midscene.js 是由 字节跳动 Web Infra 团队开源的 AI 驱动 UI 自动化工具。
它的核心理念是:把测试人员从繁琐的脚本编写中解放出来,用自然语言和多模态 AI 取代 DOM 选择器与硬编码逻辑。
换句话说,你不再需要关心 #login-btn 或 document.querySelector,而是直接告诉 Midscene.js:
「点击登录按钮」
「输入用户名 testuser」
「提取商品标题和价格」
Midscene.js 会通过 大语言模型(LLM)+ 界面截图 + DOM 结构分析,自动理解你的指令,并在浏览器中完成操作。
它的定位,不只是「测试工具」,更像一个 AI Agent for UI ——能感知界面、理解意图、执行操作。
Midscene.js:用AI重塑UI自动化

最低0.47元/天 解锁文章
2146

被折叠的 条评论
为什么被折叠?



