智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

转载于 2025-04-03 13:01:37 发布 · 164 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247786365&idx=2&sn=4fe044f2899eb3540b72449e40e8eab0&chksm=e99e22d161025d9578ef1d195684bbe53819280a88f8164638875b0f817b3db90aa3f8632a7b&scene=126&sessionid=0

文章标签：

#智能手机

V-Droid团队投稿
量子位 | 公众号 QbitAI

随着人工智能和大语言模型（LLMs）的不断突破，如何将其优势赋能于现实世界中可实际部署的高效工具，成为了业界关注的焦点。

近期，由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面（GUI）任务自动化智能体——V-Droid。

凭借其全新“验证器驱动”架构，V-Droid不仅在任务成功率上刷新记录，同时在决策响应速度上实现了接近实时的表现，为移动端自动化控制开辟了全新局面。

演示视频1：

“请从Broccoli应用中删除以下食谱：鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治”，V-Droid约使用20步操作完成此任务。视频无加速处理。

演示视频2：

“发送短信息”，V-Droid约使用8步操作完成此任务。视频无加速处理。

V-Droid与其他移动GUI智能体在AndroidWorld上的任务成功率与决策响应时间对比如下：

对于V-Droid以及其他7B，8B基准模型，决策时间在双卡4090上测试得出；对于72B基准模型，决策时间在四卡A100上测试得出。

长期以来，移动设备上的任务自动化一直面临两大难题：一是如何在复杂、多变的GUI环境中准确识别和操作界面元素, 并以多步骤成功完成任务；二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠LLM直接生成操作指令的方法，由于生成过程往往需要连续输出大量信息，导致在实际应用中既不够高效，又容易出现决策偏差。

在决策过程中，将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于：验证器驱动的智能体不会直接根据任务状态直接生成动作，而是在作出最终决策之前，明确地对每个候选都动作进行评估。

V-Droid创新性地提出“验证器驱动”的思路。该方法不再直接依赖大语言模型生成最终操作，而是首先通过对UI界面的深入解析构建出详尽的动作集合，再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估，最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦：一方面，与从零开始直接生成所需操作相比，该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证，从而大大降低了决策的复杂度；同时，由于每次验证仅输出极简的信息（仅一个Token），并且可以对多个候选动作实现并行验证，从而显著缩短了每一步决策所需的时间。

V-Droid在多个公共移动任务自动化基准上均取得了显著提升，例如在AndroidWorld基准上任务成功率达59.5%，比现有智能体提高了近10个百分点，而决策延迟在消费级硬件上（如4090）则降至仅0.7秒左右。

△V-Droid 的工作流程：① 从用户界面中提取动作并补充默认动作；② 针对每个候选动作使用模板构建验证提示；③ 利用前缀缓存对候选动作进行批量打分；④ 完成并执行所选动作；⑤ 更新工作记忆。

V-Droid的核心突破主要体现在以下几个方面：

动作空间离散化与构建

由于移动设备屏幕尺寸有限，每个界面上可交互的元素数量本就较少，V-Droid充分利用这一特性，从当前界面的XML描述中提取所有可点击、长按、滚动、文本输入等基本操作，将它们映射到一个有限的动作空间中。

同时，为了应对界面上未直接呈现的操作（例如返回首页或模拟系统操作），系统还预置了一系列默认动作。通过这种方式，原本无限的操作可能性被精细划分为一个可枚举的集合，在这个集合上进行验证，大大降低了决策难度。

验证器驱动的决策机制与流程

不同于传统依赖生成式模型直接输出操作指令的方案，V-Droid将LLM的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表，并为每个候选动作生成一个预定义格式的验证提示（Prompt），其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。

经过预先微调的验证器（基于Llama-3.1-8B等小语言模型）会对每个候选动作进行评分，最终系统选择评分最高的动作执行。由于验证过程只需要生成“Yes”或“No”这类简短回复。更重要是的，多组候选验证可被高效并行，且此过程中只涉及Prefilling阶段，从而极大地减少了计算时间，实现了近实时的决策响应。

对比式过程偏好（P3）训练

为了提升LLM作为验证器的决策能力，V-Droid提出P3 训练策略：对比式过程偏好训练策略（Pairwise Process Preference）。在每个任务步骤中，通过构建正负操作对（即标记正确操作为正样本，其他操作为负样本），系统能够利用大量细粒度的训练数据对验证器进行优化，使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力，也在一定程度上增强了系统的容错与自我修正能力。

人机联合标注的数据采集策略

由于针对移动GUI任务的细粒度标注数据极为稀缺，V-Droid设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注，随后利用经过初步训练的验证器自动生成操作标注，再由人工审核与修正。随着迭代训练的进行，验证器的准确性不断提升，人工介入比例逐渐下降，从而高效构建起一个涵盖上万条任务轨迹的数据集，为后续大规模训练提供了坚实基础。

△V-Droid的任务成功率与单步决策响应时间

V-Droid在多个移动任务自动化基准测试中均表现出色。

例如，在AndroidWorld基准上，V-Droid的任务成功率达到59.5%，相比传统代理有明显优势；在AndroidLab和MobileAgentBench上，其任务成功率分别为38.3%和49%，均超过先前系统约2%至9%的绝对提升。此外，决策响应时间仅为0.7秒，使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

V-Droid所采用的验证器驱动架构为移动端自动化任务带来全新思路。

通过将智能体的动作生成过程解耦为动作空间构建与验证，该系统不仅在任务成功率上取得了显著提升，还在决策延迟方面实现突破。未来，这一技术有望推广至更多实际应用中，如自动化测试等领域。随着大语言模型技术的不断进步，以及高效训练与数据采集策略的成熟，验证器驱动的移动GUI智能体或将成为智能交互领域的突破口。

论文标题：Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
论文作者：Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu
链接：https://arxiv.org/abs/2503.15937