智谱创新AndroidGen框架：解决移动设备大模型Agent数据困境，重塑智能交互体验...-优快云博客

智谱创新AndroidGen框架：解决移动设备大模型Agent数据困境，重塑智能交互体验

【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b

将大语言模型（LLM）以智能体（Agent）形态深度融入移动设备，是人工智能领域极具价值的探索方向。然而，高质量交互数据的稀缺性，如同横亘在这条道路上的一座大山。移动场景的千变万化、复杂任务数据采集的重重阻碍以及数据清洗的繁琐流程，使得在真实环境中大规模积累优质移动Agent数据成为一项艰巨任务。为了攻克这一核心难题，智谱在AutoGLM项目的研发过程中，成功打造了AndroidGen框架。该框架不仅能够在数据资源有限的情况下，有效增强基于LLM的Agent性能，还具备收集人类任务操作轨迹的能力，并能利用这些轨迹对语言模型进行训练，最终开发出无需人工标注轨迹的智能Agent。在AndroidWorld、AitW等权威评测集上的验证结果显示，AndroidGen框架可显著提升LLM完成复杂任务的效能。

如上图所示，图片清晰展示了AndroidGen框架的品牌标识，以深蓝色为背景，搭配白色的“AndroidGen”字样和下方三个绿色的Android机器人图标。这一设计直观地突出了该框架专为安卓智能体打造的核心定位，帮助读者快速建立对AndroidGen框架的视觉认知和品牌联想。

与传统对话式数据集的构建方式不同，移动设备Agent的数据收集面临着独特的挑战。首先是场景的极度多样性，不同应用场景之间的差异巨大，这对LLM的跨场景适应和泛化能力提出了极高要求，因此，任务数据的收集必须尽可能覆盖各种不同的应用场景和功能模块。其次是复杂任务数据的收集难题，复杂任务往往涉及多步骤操作和多目标要求，这不仅需要数据收集者具备强大的任务规划能力和精准的执行能力，还会因此增加数据获取的成本，并可能降低任务的整体完成率。最后是数据过滤的复杂性，为了保证收集到的数据质量，需要对操作环境和每一步操作进行细致入微的检查，确保其完全符合任务描述，这一过程不仅极具挑战性，而且耗时费力，进一步推高了数据收集的总体支出。

为了有效应对这些挑战，AndroidGen框架创新性地引入了四个关键模块：ExpSearch（经验搜索）、ReflectPlan（反思规划）、AutoCheck（自动校验）和StepCritic（步骤评判）。ExpSearch模块通过检索数据库中已完成的相似任务轨迹，为LLM提供上下文学习的范例，从而提升Agent的问题解决能力，并助力其实现从简单任务到复杂任务的能力迁移与泛化。ReflectPlan模块则负责对当前任务执行环境进行自我审视，并动态更新任务计划状态，有效增强Agent的长期推理和规划能力。AutoCheck模块能够主动验证Agent每一步操作的有效性，及时发现并纠正潜在的操作失误，从而降低因错误操作导致任务失败的风险。StepCritic模块将复杂任务分解为多个可管理的子目标，并对任务执行轨迹提供逐步骤的评估反馈，为模型的持续优化提供细粒度的指导标签。

AndroidGen框架的整个工作流程清晰地分为三个阶段。在准备阶段（preliminary），ExpSearch模块会从数据库中精准检索出与当前任务最相关的类似任务及其执行轨迹，并将这些宝贵的参考信息输入给Agent，为任务的顺利开展奠定基础。进入任务执行阶段（task execution）后，ReflectPlan模块首先对当前任务的进展情况进行评估，并根据评估结果更新任务执行计划。随后，Agent结合当前环境信息、更新后的计划以及检索到的示例，生成具体的操作指令。AutoCheck模块会立即对这些操作指令进行严格验证，验证通过则执行该操作，若验证失败，则要求Agent重新生成操作指令。最后是更新阶段（update），StepCritic模块会对整个任务执行轨迹进行精细的评估分析，并依据评估结果对数据库中的任务案例和模型参数进行更新，实现框架的自我迭代与进化。

AndroidGen框架能够与现有的LLM无缝集成，无需进行预先的大规模训练，即可直接将这些LLM部署为功能完备的Android Agent。

在数据收集方面，为了高效生成大量高质量的Android设备操作浏览轨迹，研究团队利用AndroidGen框架构建了一套自动化的数据构建管道。该数据收集流程主要包含以下几个关键阶段。第一步是任务制定，研究团队借助GPT-4o，依据AndroidWorld中的指令规范，生成了约300条多样化的任务指令。为了杜绝数据泄露的风险，在整个训练过程中，没有引入任何形式的奖励信号或黄金标准答案。第二步是Agent采样，利用AndroidWorld模拟环境和GPT-4o模型，对每一条任务指令对应的操作轨迹进行采样生成。第三步是轨迹记录，在轨迹采样过程中，专门部署了一个高效的记录器，用于详尽记录每一步操作所处的环境状态和具体的操作信息，这一步骤对于构建可精确复现的Android设备导航轨迹至关重要。第四步是轨迹评估，每项任务完成后，使用StepCritic模块对记录的轨迹进行全面评估，该模块会列出任务的各个子目标以及为达成这些子目标所采取的相应步骤，只有当所有子目标都被成功完成时，才判定该任务轨迹合格。第五步是轨迹增强，其主要目的是进一步扩充高质量数据集的规模，通过整合来自不同渠道的原始任务和经过优化的增强任务，最终构建了一个包含1000多个有效轨迹的丰富数据集。

模型训练阶段，研究团队采用了高效的LoRA（Low-Rank Adaptation）微调技术，针对上述自动构建的高质量数据集，对GLM-4-9B和Llama-3-70B这两款主流大模型进行了专项微调，成功得到了性能优异的Android Agent模型。值得强调的是，这种训练方法完全摆脱了对人工标注轨迹的依赖。通过将轨迹中的每一个步骤都作为独立的训练样本进行学习，模型能够充分挖掘和利用数据集中蕴含的丰富信息。为了提升模型在移动设备上的部署效率和实时响应能力，研究团队还创新性地将任务规划和具体执行步骤的学习过程混合起来进行微调，使LLM能够同时具备强大的任务规划能力和精准的操作执行能力。

为了全面验证AndroidGen框架的实际效果，研究团队选择了多个权威基准测试集以及主流移动应用来进行测试。AndroidWorld作为一个广泛使用的Android设备交互环境模拟平台，其主要功能是评估Agent在Android生态系统中执行各类任务的综合能力，它通过模拟真实用户的操作场景，来测试和提升模型的导航决策、任务规划和执行性能。在AndroidWorld基准测试中，AndroidGen框架展现出了令人瞩目的性能提升：它显著增强了相同基础模型Agent的任务执行能力；与M3A和SeeAct等现有主流Agent相比，其性能优势更为突出；AndroidGen与GPT-4o的组合平均得分达到了46.8，远超其他模型组合。尤其值得一提的是，参数规模更小且开源的GLM-4-9B模型在集成AndroidGen框架后，其平均得分甚至超过了参数规模更大且闭源的GPT-4o与M3A框架的组合。在AitW（Android in the Wild）评测集和多款主流移动应用的实际测试中，同样观察到了类似的显著性能提升。AitW评测集基于谷歌发布的同名大规模真实世界数据集构建，包含715,142个操作序列，覆盖30,378个独特指令，涉及四个Android版本（v10-v13）和八种不同设备类型，旨在全面测试Agent对自然语言指令的理解能力以及在真实设备环境中的实际交互能力，其评测任务包括多步复杂任务（如使用Google应用、安装新应用、进行网络购物等）和单步简单任务，重点挑战模型在不同设备、不同系统版本以及面对未见过的新指令时的鲁棒性。

尽管AndroidGen框架在实际应用中已经展现出卓越的性能，但在技术的不断演进过程中，仍存在巨大的改进和提升空间。在后续的研发工作中，智谱团队将重点在性能优化、效率提升和安全性增强这三个关键方向上继续完善AndroidGen。

在性能方面，虽然AndroidGen的任务完成率已经相对较高，但仍有提升的余地。目前，语言Agent在处理涉及视觉信息的任务时表现尚不尽如人意，这凸显了将视觉模型与语言模型深度融合以增强其多模态感知与理解能力的必要性。此外，Agent在应对一些复杂的交互场景时，如跨多个应用协同完成任务或涉及精确计数的场景，仍然面临挑战。未来，考虑在推理过程中引入大规模自适应推理搜索策略，有望成为提升其复杂任务规划能力的有效途径。

在效率方面，尽管AndroidGen能够成功完成用户委托的众多任务，但由于当前系统架构和模型规模较大，其执行效率和响应速度仍有待进一步提升。未来，研发团队将专注于提高小模型在特定应用环境中的运行效率。小模型作为具体操作的执行者时表现通常较为出色，因为它们只需按照既定的指令完成明确的操作步骤。然而，当小模型被要求承担任务规划角色时，由于需要更强的推理能力和更广的泛化能力，其性能往往难以满足需求，这通常需要更大规模的模型来支撑。

安全性是人工智能Agent系统在实际部署和应用过程中面临的核心挑战之一。随着LLM能力的不断拓展和增强，其能够执行的任务已不再局限于简单的文本输出，而是延伸到处理用户账户敏感信息、代表用户发表公开声明，甚至进行金融交易等高风险操作领域。因此，有效防范这些操作中可能存在的潜在风险至关重要。目前，智谱团队正在积极开发一个更为全面和智能的自动检查模块。该模块将作为一个专门的风险分类器，能够精准识别并有效阻止错误或恶意操作，并在涉及高风险操作时，在获得用户明确许可的前提下，进行多轮验证和确认，以最大限度保障用户权益和系统安全。

AndroidGen框架的出现，为解决移动设备大模型Agent数据稀缺问题提供了创新性的解决方案，其在提升LLM复杂任务执行能力方面的显著效果已得到验证。未来，随着在性能、效率和安全性上的持续优化，AndroidGen有望推动移动智能Agent在更多实际场景中的广泛应用，为用户带来更智能、更高效、更安全的移动交互体验，重塑人机交互的未来形态。

【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考