单例示范即可永久掌握!浙大vivo联合突破手机AI复杂操作学习瓶颈

想让手机AI助手真正理解你的操作习惯?浙江大学与vivo AI实验室的最新研究给出了突破性答案——全新LearnAct多智能体框架仅需一次人类示范,就能让AI系统快速掌握个性化复杂操作。这项同步发布了全球首个移动端示范学习基准LearnGUI的创新成果,不仅将主流大模型的任务成功率提升超170%,更为智能手机AI助手的实用化部署扫清了关键技术障碍。

【免费下载链接】UI-TARS-7B-SFT 【免费下载链接】UI-TARS-7B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT

手机AI助手的"能力天花板":长尾场景下的致命短板

随着大语言模型技术的飞速迭代,能够自主完成屏幕交互的手机GUI智能体正从实验室走向商用。这类AI系统通过解析屏幕截图或UI结构树感知界面状态,自动生成点击、输入、滑动等操作序列,理论上可替代用户完成重复任务。然而现实应用中,这些智能体却遭遇了难以逾越的"长尾困境"——Google Play商店168万款应用的界面差异、数十亿用户的个性化需求,使得依赖预训练或大规模微调的传统方法根本无法覆盖全部场景。

"当用户需要在智能家居控制界面切换特定设备模式,或在企业资源规划系统中生成定制报表时,现有AI助手往往束手无策。"研究团队负责人、vivo AI lab算法专家刘亮指出,移动应用的场景多样性与用户任务的个性化特征,形成了智能体技术落地的双重挑战。传统模型在面对训练数据中未出现的界面布局或操作流程时,成功率通常骤降至20%以下,这种"见过就会,没见过就废"的现状,严重制约了手机AI助手的实用价值。

示范学习新范式:弥合AI能力与个性化需求的鸿沟

针对这一行业痛点,浙江大学孟文超研究员团队与vivo AI实验室联合提出了基于"少样本示范学习"的全新解决方案。与传统依赖通用模型或海量数据的思路不同,LearnAct框架创新性地通过解析人类用户的操作示范,自动提炼任务知识并指导AI系统适应未见场景。这种"一次示范,终身掌握"的学习模式,能够精准捕捉每个用户的操作习惯与任务逻辑,从而填补预训练模型无法覆盖的"个性化能力鸿沟"。

实验数据显示,在LearnGUI基准测试中,仅需单个示范案例,Google Gemini-1.5-Pro的任务准确率就从19.3%跃升至51.7%,相对提升幅度达198.9%;国产模型UI-TARS-7B-SFT的在线交互成功率也从18.1%提升至32.8%。"这相当于让AI助手从'初学者'直接晋级为'熟练工'。"论文共同第一作者、浙江大学硕士生刘广义解释道,该方法特别适用于兼具稳定模式与可变元素的场景——如定期生成带变量参数的健康报告、操作不同品牌智能家居的统一控制流程等,这些场景下的个性化知识往往难以通过通用数据集习得。

LearnGUI基准:构建示范学习的"试金石"

为系统评估AI从示范中学习的能力,研究团队耗时18个月构建了全球首个移动端示范学习专用基准LearnGUI。该基准基于AMEX应用交互数据集和AndroidWorld界面库扩展而来,包含2252个离线少样本任务与101个在线实时任务,所有任务均配备高质量人类示范视频与操作序列标注。这种精心设计的数据结构,不仅支持研究不同示范数量对学习效果的影响,更能量化分析任务相似性(指令、UI、动作三个维度)与学习效率的关联规律。

通过对示范任务与目标任务的相似度分布分析,研究团队发现:当两者的UI结构相似度超过65%时,AI系统仅需1次示范即可达到70%以上的迁移学习效果;而指令描述的相似性则对复杂逻辑任务的学习起决定性作用。这些发现为后续优化示范设计提供了重要依据。值得注意的是,LearnGUI基准特别包含了15类高频长尾场景数据,从智能手表数据同步到跨境电商物流查询,全面覆盖了现有数据集缺失的个性化任务类型。

LearnAct三智能体协同:从示范解析到自主执行的全流程智能化

支撑这一突破的核心在于LearnAct独创的多智能体协作架构。该框架由三个专业智能体协同工作:DemoParser负责将原始示范数据转化为结构化知识,它通过视觉-语言模型解析屏幕变化与操作序列,生成如"在搜索框输入关键词后等待结果加载"的语义化动作描述;KnowSeeker则扮演知识检索专家角色,动态匹配当前任务与示范知识库的相似案例,精准提取可复用策略;最终由ActExecutor智能体结合实时界面状态与检索知识,生成适应新场景的操作序列。

这种分工协作机制实现了示范知识的"一次解析,多次复用"。在处理"删除特定消费记录"的典型任务时,DemoParser会自动识别"长按-勾选-删除"的动作模式与"消费金额"、"日期"等关键变量;当用户下次需要删除不同日期的记录时,KnowSeeker能迅速定位相关示范知识,指导ActExecutor调整点击坐标完成操作。这种结构化知识表征方式,使AI系统既能掌握通用操作逻辑,又能灵活适配具体界面元素变化。

实测验证:从实验室数据到真实场景的全面突破

在严格的离线评估中,LearnAct框架展现出惊人的学习效率。在CityMapper导航应用的"规划最优通勤路线"任务中,示范学习将模型准确率从14.1%提升至69.4%;在To-Do应用的"按优先级排序任务"场景,成功率更是从17.4%飙升至69.2%。这些提升在包含多步骤逻辑判断的复杂任务中表现尤为显著,证明示范学习特别擅长捕捉操作流程中的隐性规则。

更具说服力的在线实测进一步验证了技术实用性。在101个模拟真实用户环境的在线任务中,搭载LearnAct的Qwen2-VL-7B模型任务成功率从9.9%提升至21.1%,UI-TARS-7B-SFT模型则从18.1%提升至32.8%。特别是在"批量删除消费记录"这类典型长尾场景中,传统方法因无法识别动态加载的列表项而彻底失败,而LearnAct仅通过一次示范就掌握了"滑动加载-批量勾选-确认删除"的完整流程,即使面对与示范界面差异达40%的新布局仍能成功执行。

开启个性化AI助手新纪元:从工具到伙伴的进化

这项研究的突破性意义在于,它首次实现了手机AI助手从"通用工具"向"个性化伙伴"的跨越。通过将人类示范转化为可复用的结构化知识,LearnAct框架使AI系统能够真正理解每个用户的操作习惯与任务需求。正如论文通信作者孟文超研究员所言:"当用户为智能家居设置'回家模式'的操作示范被AI精准捕捉后,系统不仅能复现这一操作,更能在设备更新或界面改版时自主调整执行策略——这才是智能助手应有的形态。"

随着该技术的落地,未来智能手机有望实现"一次教学,永久服务"的全新交互模式:商务人士只需演示一次差旅报销单填写流程,AI就能自动适配不同航空公司的票据格式;糖尿病患者示范过血糖数据记录方法后,系统可在各类健康应用中保持一致的数据录入习惯。这种个性化能力的获得,标志着手机AI助手正从简单的功能执行者,进化为真正理解用户意图的智能协作者。

该研究已正式发表于arXiv预印本平台,项目代码与LearnGUI基准数据集同步开放。如需体验相关技术,可通过项目仓库获取部署指南:https://gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT。随着示范学习技术的不断成熟,科幻电影中"J.A.R.V.I.S."式的智能交互体验,正加速从银幕走向现实。

【免费下载链接】UI-TARS-7B-SFT 【免费下载链接】UI-TARS-7B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值