无需人工标注!AndroidGen-GLM-4-9B重构安卓智能交互新范式
【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b
导语
智谱AI开源的AndroidGen-GLM-4-9B模型,首次实现大语言模型在安卓系统全场景的自主任务执行,无需人工标注交互数据即可操控消息、时钟、邮件等应用,任务成功率达68%,接近人类操作水平。
行业现状:移动智能体的"数据困境"
2025年AI智能体技术迎来爆发期,据《大模型智能体综述》显示,全球已有超过200个智能体项目进入实用阶段。但移动智能体开发长期受困于三大痛点:标注10个应用的基础测试集需投入50万元人工成本,传统RPA工具在动态页面场景下成功率不足62%,跨应用任务规划准确率普遍低于30%。市场主流AI助手如Siri仍停留在单轮指令响应阶段,面对"预约明天9点医生并同步家庭日历"这类复杂任务时成功率不足25%。
市场规模方面,QuestMobile数据显示,截止到2025年8月,互联网及AI科技企业原生APP用户规模2.77亿,应用插件(In-App AI)用户规模6.22亿,两大AI应用整体规模达6.45亿;手机厂商AI助手用户规模5.29亿。这一数据表明移动AI应用已成为用户日常使用的重要组成部分,但现有解决方案仍无法满足复杂任务处理需求。
核心突破:四大技术模块解决行业痛点
经验搜索模块:让智能体"触类旁通"
ExpSearch模块通过检索相似任务的历史执行轨迹,为新任务提供决策参考。系统将所有操作过程存储为结构化轨迹数据,采用Contriever模型进行向量检索,在10万+历史案例中快速定位最优参考方案。实验数据显示,启用该模块后跨应用任务泛化能力提升28%,尤其在"社交媒体内容分享至办公文档"这类非标准操作中表现突出,成功率从32%跃升至68%。
反思规划模块:动态调整执行策略
ReflectPlan模块采用动态规划机制,在任务执行过程中持续评估进度并优化路径。以"导出日历会议至Excel"任务为例,系统会先规划初始方案,在检测到"无法直接导出"时自动切换为"截图识别+表格生成"的备选策略。该模块使复杂任务的规划准确率提升40%,在医疗、金融等高精度要求场景中错误率降低至0.3%以下。
自动检查模块:全方位验证操作有效性
AutoCheck模块构建了多层次校验体系,从元素ID存在性、操作类型匹配度到结果一致性进行全流程验证。在银行APP表单填写场景中,系统能自动识别"验证码输入框"等关键节点,将填写错误率从8%降至0.3%。该模块支持自定义校验规则,企业可根据业务需求添加行业特定校验逻辑,如电商场景的"库存实时检查"功能。
步骤评估模块:细粒度优化执行轨迹
StepCritic模块将任务分解为可独立评估的步骤单元,每个操作都生成包含"操作类型""目标元素""执行结果"的三元组数据。通过与人工标注的最优路径对比,可精确定位"错误调用工具""无效页面跳转"等问题。在AitW真实设备评测中,该模块使智能体调试效率提升3倍,平均问题定位时间从45分钟缩短至15分钟。
技术原理:突破传统自动化瓶颈
通过融合大模型智能体(Agent)与安卓无障碍服务,AndroidGen实现了手机操作自动化准确率提升40%,解决传统RPA工具无法处理动态页面、复杂指令的行业难题。其核心在于三级处理框架:
-
动态页面捕获:并行解析无障碍节点树(AccessibilityNodeInfo),通过ForkJoinPool将XML生成速度提升50%;双通道页面状态检测结合基于CNN的弹窗检测模型(准确率98.7%)与时序差分判断。
-
语义化页面重构:通过专利XML压缩算法,删除冗余节点并补全OCR文本,实现页面元素的语义化理解。
-
多模态决策引擎:输入压缩后XML与屏幕截图,输出操作指令(点击/滑动/API调用),采用GLM-4微调模型支持9类操作指令。
性能对比显示,该方案在动态页面成功率(93% vs 62%)、指令解析准确率(89% vs 45%)和平均响应延迟(0.4s vs 1.2s)上均显著优于传统RPA方案。
行业影响:重新定义移动交互范式
AndroidGen-GLM-4-9B的开源发布正在重塑移动应用生态。开发者可通过以下命令快速部署模型:
git clone https://gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b
cd androidgen-glm-4-9b
pip install -r requirements.txt
python run_agent.py --model-path ./checkpoints
该技术已在多个领域展现变革性价值:
- 办公场景:员工处理日常任务效率提升2.3倍,数据录入、会议安排等重复性工作耗时减少75%
- 无障碍服务:视障用户完成"查看银行账单"任务的时间从22分钟缩短至5分钟,操作效率提升65%
- 工业场景:技术人员可通过自然语言控制设备巡检APP,实现"拍摄故障照片-生成维修单-调度工程师"全流程自动化
未来趋势:从工具到伙伴的进化
随着技术迭代,AndroidGen有望向三个方向发展:多模态交互支持(融合语音、手势等输入)、跨设备协同(手机-平板-车载系统无缝切换)及个性化学习(根据用户习惯优化操作风格)。智谱AI已联合小米、OPPO等厂商成立"移动智能体开放联盟",着手制定行业标准,预计2026年将实现90%主流应用的智能体适配。
这一技术浪潮下,移动设备正从被动执行工具进化为主动理解需求的智能伙伴。正如AndroidGen项目负责人在论文中所述:"当手机能真正理解'帮我整理旅行照片并制作游记'这类模糊指令时,人机交互将进入全新纪元。"对于开发者而言,现在正是布局智能体技术的关键窗口期,抓住这一机遇将在未来移动应用竞争中占据先机。
【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/androidgen-glm-4-9b
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



