AI专栏 | 告别人工写脚本！多模态大模型驱动携程UI自动化测试迈入“描述即生成”阶段

最新推荐文章于 2025-09-12 15:45:00 发布

原创

最新推荐文章于 2025-09-12 15:45:00 发布 · 783 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ui

作者简介

Jessi Peng，携程资深后端开发工程师，关注AI技术在测试领域的应用。

团队热招岗位：测试开发工程师、Java开发工程师、前端开发工程师

一、引言

在传统的UI自动化测试流程中，测试人员需要构建完整的开发环境，包括Python运行环境、PyCharm集成开发环境、自动化测试框架等工具链的配置与部署。在用例编写过程中，测试人员必须通过人工方式精确定位目标UI元素，并基于自动化框架封装的底层方法，手工编写测试代码。

这种传统模式不仅技术门槛较高，而且在面对复杂的用户界面时，元素定位的准确性和代码编写的效率都难以得到有效保障，导致整个测试用例开发过程极为繁琐、耗时且容易出错。

近年来，大模型在自然语言理解、推理规划等方面展现出了令人瞩目的能力。特别是多模态大模型的快速发展，为UI自动化测试领域带来了新的技术机遇。多模态大模型具备同时处理文本、图像等多种数据模态的能力，能够深度理解用户界面的视觉特征和结构信息，并结合自然语言描述进行智能推理。

基于这一技术趋势，本文提出了一种基于多模态大模型的UI自动化用例生成方法。该方法以页面截图、DOM树结构以及自然语言用例描述作为输入，充分利用多模态大模型的跨模态理解能力和逻辑推理能力，实现对UI元素的智能识别与定位，并自动生成可持续执行的UI自动化测试用例。这种方法有效突破了传统人工编写模式的技术壁垒，显著降低了UI自动化测试的实施成本和技术门槛。

二、UI自动化用例智能化生成技术演进

随着大模型能力的持续提升，UI自动化测试领域正经历着从传统规则驱动向智能化生成的重要转变。该项目在UI自动化测试实践中，基于不同阶段大模型技术的发展水平，进行了系统性的技术探索与迭代优化，形成了以下四个渐进式发展阶段：