清华北大联合发布Android智能体研发新范式：AndroidLab框架攻克多模态交互难题-优快云博客

在智能手机用户突破30亿、移动应用日均交互超50亿次的数字时代，构建能够自主完成复杂移动任务的AI智能体（Agent）已成为人工智能领域的战略制高点。尤其是占据全球70%移动设备市场份额的安卓系统，其智能交互技术的突破将直接推动工业自动化、残障辅助、智能家居等千行百业的智能化转型。然而当前安卓智能体研究普遍面临三大瓶颈：依赖闭源大模型导致技术可控性不足、多模态交互环境缺乏统一标准、开源模型任务完成率不足5%。针对这些行业痛点，清华大学智能技术与系统国家重点实验室联合北京大学信息科学技术学院的研究团队，历时18个月研发推出AndroidLab全栈式研发框架，通过创新的双模态交互系统、多维度评估体系和高质量指令数据集，使开源模型的任务成功率提升近4倍，大幅缩小了与闭源模型的技术差距。

【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b

跨模态交互系统：重新定义智能体操作范式

AndroidLab框架的核心突破在于构建了业界首个支持文本与视觉模态无缝切换的交互系统，创造性地解决了不同类型模型与安卓环境的通信难题。研究团队针对纯语言模型（LLMs）和多模态模型（LMMs）的特性差异，分别设计了XML模式与SoM模式两大交互协议，并在此基础上开发了革命性的推理执行框架。

XML模式采用结构化信息压缩技术，将安卓系统的UI树结构转化为轻量级标记语言，通过自定义标签集（如、）精准描述界面元素的属性与状态。系统创新性地引入差分XML传输机制，仅在界面发生变化时更新差异部分，使数据传输量减少67%，交互延迟降低至200ms以内。在操作执行阶段，框架通过XPath路径解析与元素定位算法，确保模型输出的操作指令能精确映射到屏幕坐标，在10万次测试中实现99.8%的点击准确率。这种模式特别适合LLaMA、GLM等纯文本开源模型，通过最小化视觉信息处理需求，将模型的认知资源集中于任务规划。

SoM（Set-of-Mark）模式则为多模态模型打造了视觉-文本融合交互界面，采用动态标记生成算法在屏幕截图中为每个可交互元素添加唯一数字标记。系统会自动规避元素重叠区域，确保标记编号的视觉可辨识性，同时通过OCR技术提取元素文本信息，形成"标记编号-文本描述-坐标位置"的三元组数据结构。实验数据显示，该模式使LMMs的元素定位错误率从32%降至8.7%，尤其在处理复杂嵌套界面时优势显著。值得注意的是，SoM模式支持1080P分辨率的实时渲染，在主流移动GPU上可实现30fps的流畅标记更新。

为进一步释放模型的推理能力，研究团队提出两种创新执行框架。ReAct框架采用"思考-行动"循环机制，要求模型在输出操作前生成自然语言推理过程，如"需要先打开设置应用，因此应该点击屏幕底部的齿轮图标"。这种方式使模型在处理"跨应用数据迁移"等复杂任务时，步骤规划准确率提升41%。SeeAct框架则创新性地将推理与执行分离为两个独立阶段，第一阶段生成详细操作步骤清单，第二阶段严格按照清单执行，在"系统设置修改"等安全性要求高的场景中，错误操作率降低28%。对比实验表明，在包含6个以上步骤的复杂任务中，ReAct框架的成功率（27.6%）显著高于SeeAct框架（19.3%），而在简单查询任务中两者性能接近。

全场景评估体系：构建智能体能力度量新标尺

为科学衡量智能体的综合性能，AndroidLab团队构建了覆盖真实应用场景的基准测试集与多维度评价指标体系，填补了安卓智能体评估标准的行业空白。该基准测试精选9款用户日均使用频次最高的安卓应用，包括系统工具（设置、日历）、社交应用（微信、微博）、生产力工具（WPS、Chrome）等三大类别，设计138个任务场景，其中操作类任务占比62%（如"在微信中添加好友并发送位置"），查询类任务占比38%（如"查找日历中下周的会议安排"）。每个任务均包含3-8个子目标，通过子目标完成度的阶梯式评估，可精准定位模型在任务分解、环境探索等环节的能力短板。

在评价指标设计上，研究团队突破传统单一成功率的局限，构建了包含四个维度的评估矩阵。任务完成率（SR）作为核心指标，要求所有子目标按序完成且无关键错误；子目标成功率（Sub-SR）则细化评估每个操作步骤的正确性，采用加权平均法计算得分（关键步骤权重1.5，普通步骤权重1.0）；反向冗余率（RRR）通过对比模型操作路径与人类专家路径的长度差异，量化评估操作效率，其计算公式为"人类步骤数/模型步骤数×100%"，理想值为100%；合理操作比率（ROR）则统计有效操作占总操作的比例，过滤掉重复点击、无效滑动等无意义行为。这种多维度评估方法使研究者能全面掌握模型在"能否完成-如何完成-完成效率"三个层面的表现。

特别值得关注的是，该基准测试引入动态环境扰动机制，在10%的测试用例中随机改变界面元素位置或添加干扰信息，模拟真实使用中的环境变化。测试结果显示，闭源模型在扰动场景下的性能下降幅度（平均12%）显著低于开源模型（平均29%），揭示出当前开源模型环境适应性的不足。为确保评估结果的可复现性，框架提供Docker容器化的测试环境，包含固定版本的应用APK、预设的系统状态快照和自动化任务执行脚本，所有测试数据均可通过Gitcode仓库获取完整复现包。

指令微调革命：开源模型的能力跃升之路

AndroidLab团队深刻认识到高质量训练数据是提升开源模型性能的关键，为此构建了包含726条完整操作轨迹、6000余个步骤的Android Instruct数据集。该数据集采用"自动探索+人工精修"的创新构建方法，通过三级质量控制体系确保数据质量，使开源模型的任务完成率从基线水平的4.59%飙升至21.50%，实现质的飞跃。

在数据采集阶段，研究团队开发了基于强化学习的自动探索器，使用PPO算法训练智能体在应用中进行目标导向的操作探索。系统会记录每个操作的前因后果，形成包含"任务指令-界面状态-操作行为-执行结果"的四元组轨迹数据。为筛选高质量轨迹，团队训练了专门的奖励模型，从任务相关性、步骤合理性、操作效率三个维度进行打分，仅保留评分高于0.85的轨迹进入人工标注环节。这种半自动化方法使数据采集效率提升10倍，同时保证每条轨迹的完成质量。

人工标注环节采用双盲交叉验证机制，由3名经验丰富的标注员独立对轨迹进行步骤拆分与指令撰写。标注工具会自动检测步骤逻辑矛盾（如"未打开应用却执行操作"），并提示标注员修正。最终形成的指令数据包含任务描述、环境约束、成功条件等要素，平均长度达180词，远高于同类数据集的85词水平。数据集特别注重覆盖边缘场景，如弱网环境下的操作容错、多应用协同等复杂任务，其中包含15%的"反直觉"任务（如"在飞行模式下发送短信"），专门训练模型的常识推理能力。

在模型微调阶段，团队采用参数高效微调技术（LoRA），在消费级GPU上即可完成GLM-4-9B等模型的训练。实验对比显示，使用Android Instruct数据集微调的开源模型，在XML模式下的任务成功率达到21.50%，较通用指令微调模型提升368%，其中"系统设置"类任务表现尤为突出，成功率达34.2%，接近闭源模型GPT-4 31.16%的基准水平。更令人振奋的是，微调后的开源模型在合理操作比率（ROR）指标上达到89.7%，超越部分闭源模型，显示出高效的资源利用能力。

场景化性能分析：揭示智能体的能力边界

为全面探索安卓智能体的实际应用潜力，AndroidLab团队开展了多维度的场景化测试，系统分析设备特性、框架选择、任务类型等因素对性能的影响，为产业落地提供科学指导。研究覆盖从旗舰机型到折叠屏设备的全谱系硬件，通过控制变量法揭示智能体在真实环境中的能力边界与优化方向。

设备适配性测试在四款代表性机型上展开：Pixel 3a（5.6英寸LCD屏）、Pixel 7 Pro（6.7英寸OLED直屏）、Pixel 8 Pro（6.7英寸LTPO屏）和Pixel Fold（7.6英寸折叠屏）。实验结果呈现显著的设备依赖性：标准尺寸直屏设备（Pixel 7/8 Pro）的平均成功率达24.3%，而小屏设备（Pixel 3a）和折叠屏设备（Pixel Fold）的成功率分别降至15.8%和13.2%。深入分析表明，小屏设备因显示空间有限导致元素频繁折叠，需要额外的滚动操作，使任务步骤平均增加2.3步；折叠屏设备则面临横屏模式下的UI布局变化，元素坐标映射错误率上升至14.5%。这些发现为智能体的设备适配开发提供明确方向：需针对小屏优化滚动预测算法，为折叠屏设计动态布局适配模型。

框架对比实验在相同任务集上测试了ReAct与SeeAct框架的表现差异。在XML模式下，ReAct框架通过"推理-操作"交替进行的方式，使任务成功率达到22.1%，较SeeAct框架（16.8%）提升31.5%，尤其在需要多步骤规划的"文件管理"任务中优势明显（32.7% vs 19.4%）。但ReAct框架的平均token生成量达450词，较SeeAct框架多产生68%的文本输出，增加了交互延迟。在SoM模式下，两种框架的性能差距缩小至8%，主要因为视觉信息提供了更明确的操作线索，降低了推理需求。研究团队建议根据任务复杂度动态选择框架：简单任务采用SeeAct提升效率，复杂任务切换至ReAct保证成功率。

应用类型敏感性分析揭示智能体在不同应用场景的能力差异。数据显示"浏览器"和"设置"类应用的任务成功率最高（分别为28.3%和26.7%），因为这类应用的界面结构相对固定，操作逻辑清晰；而"社交应用"和"图库"类应用成功率较低（18.5%和17.2%），主要挑战来自动态内容加载和复杂的交互状态（如聊天窗口切换）。特别值得注意的是，所有模型在"需要文本输入"的任务中表现普遍较差，平均成功率仅12.8%，反映出当前智能体在自然语言生成与输入方面的短板，这也成为团队下一步重点突破的方向。

行业影响与未来展望

AndroidLab框架的发布标志着安卓智能体研究进入标准化、工程化发展的新阶段，其开源特性（仓库地址：https://gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b）将极大降低学术界的研究门槛，同时为产业界提供可直接落地的技术方案。框架已被华为、小米等头部手机厂商纳入智能助手技术评估体系，在残障辅助领域的初步应用显示，视障用户完成日常手机操作的平均耗时从15分钟缩短至4分钟，操作错误率下降72%。

展望技术演进方向，研究团队计划在三个维度深化研究：一是开发多模态融合的统一交互协议，解决当前XML与SoM模式的切换难题；二是构建动态环境适应机制，使智能体能够应对界面变化、应用更新等未知场景；三是探索具身智能训练方法，通过强化学习从环境反馈中持续优化策略。随着开源模型性能的快速提升和硬件算力的持续增强，我们有理由相信，在未来2-3年内，安卓智能体将实现从"任务执行者"到"生活助手"的跨越，真正成为人类与数字世界交互的智能中介。

AndroidLab框架的成功实践证明，通过构建开放的技术生态和高质量的基础设施，中国科研团队完全能够在智能体这一前沿领域掌握技术主动权。当开源模型的任务成功率突破50%临界点时，将引发移动应用开发范式的革命性变革——从"人类适应机器"到"机器适应人类"，最终实现数字技术服务于人本需求的终极目标。

【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考