阿里开源AI手机的“灵魂”，GUI智能体2B到235B四个版本全，端云协同成功率暴涨33%

转载于 2025-12-31 08:55:17 发布 · 7 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247859401&idx=2&sn=4314356c4023e88588f281ab999cb8e2&chksm=e9f0f454b8fde14bd45cae2f7db57cf2bcae2af6dcbfdfceb08d88002c0d70a125f52c655b60&scene=126&sessionid=0

文章标签：

梦晨发自凹非寺
量子位 | 公众号 QbitAI

AI手机的“灵魂”GUI智能体，就这么全套开源了。

来自阿里通义实验室的MAI-UI：论文、代码、模型全都有，从2B的端侧小模型到235B的云端大模型，一口气发布四个尺寸版本，覆盖全场景部署需求。

这套系统不只是能帮你点点屏幕，它能主动追问你没说清楚的需求，能直接调用外部API绕过繁琐的界面操作。

甚至还搞了一套端云协同系统，隐私敏感的操作留在本地跑，复杂任务交给云端处理。

论文给出几个典型案例：

用户收到中介发来的两套房源地址，想比较哪套离公司更近，然后把更近那套的地址发给朋友。

传统做法需要在短信和地图APP之间反复切换，复制粘贴地址，分别搜索路线。但有了MCP工具调用，智能体可以直接用高德地图的API查询两条路线的驾车距离，一次性拿到结构化结果，大幅压缩操作步骤。

另一个案例更有难度：

用户想查看某个GitHub仓库最近三次提交的作者和信息，然后发邮件。这种操作在手机上本来很难完成，因为移动端浏览代码仓库体验很差。

但通过MCP调用GitHub的API，智能体直接获取提交记录的结构化数据，提取需要的字段，再切换到邮件APP发送。相当于把原本只能在桌面端做的工作流搬到了手机上。

主动询问需求方面，论文展示了一个文件分享任务：

用户让智能体把下载文件夹里最近一个月的简历发给HR同事，但没说收件人邮箱，也没说邮件正文要写什么。智能体检测到关键信息缺失后，暂停执行，主动向用户询问，拿到回复后再继续完成任务。

四大痛点，一个方案

团队在论文开头就直接点明了当前GUI智能体落地的四个核心问题。

第一个是交互缺失。

现有系统基本都是端到端执行，默认用户指令清晰完整，但现实中用户经常说一半留一半。

比如「帮我订个机票」，去哪儿？什么时候？几个人？全没说，智能体如果不能主动追问，要么猜错要么卡死。

第二个是纯UI操作的局限性。

完全依赖界面点击会导致两个麻烦：操作步骤一多，中间任何一步出错就会导致整个任务失败；而且有些功能在手机界面上根本做不了，比如想让手机帮你查GitHub的提交记录，光靠点屏幕是搞不定的。

第三个是端云割裂。

目前的GUI智能体要么是轻量级的端侧模型，能力有限；要么是大模型只能跑在云端，隐私风险高、成本也高。两者之间没有原生的协作机制。

第四个是动态环境下的脆弱性。

用静态数据训练出来的模型，遇到真实世界里千变万化的界面布局、突然弹出的权限请求、不同版本的APP就容易翻车。

MAI-UI的解决方案：

一条能自动生成用户交互和MCP工具调用数据的自演化数据管线。

一套根据任务状态和数据敏感度动态切换端云执行的协同系统。

再加上一套支持500多个并行环境、最长50步交互的在线强化学习框架。

端云协同与隐私保护

端云协同系统是这次工作的一大重点。

整个系统由三部分组成：一个运行在手机本地的轻量级智能体，既负责执行GUI操作，也负责监控轨迹是否偏离用户意图；

一个部署在云端的大容量智能体，用于处理复杂任务；以及一个本地统一轨迹记忆模块，保证端云之间的信息一致。

工作流程是这样的：

用户下达指令后，本地智能体开始执行。每隔几步，本地监控模块会检查当前轨迹是否还在正确方向上。

如果发现偏离且不涉及敏感数据，就把任务交给云端模型接手完成。交接时还会生成一份错误摘要，帮助云端模型理解问题出在哪里并快速恢复。

相比纯端侧执行，端云协同让2B模型的成功率提升了33%；相比纯云端执行，云端调用次数减少了40%以上，超过40%的任务完全在本地完成。

论文还给出了一个隐私保护的案例。在一个需要输入密码的任务中，本地模型一开始执行出错（反复点击登录按钮却没输入密码），监控模块检测到偏离后准备切换到云端。

但隐私检测模块发现当前界面涉及敏感凭证，于是阻止了云端切换，让任务继续在本地执行。最终本地模型自己纠正了错误并完成了任务，全程没有任何敏感信息传到云端。

性能屠榜，多项SOTA

在GUI元素定位任务上，MAI-UI-32B在ScreenSpot-Pro上达到73.5%准确率，超过了Gemini-3-Pro和Seed1.8。

在UI-Vision上拿到49.2%，比之前最强的UI-Venus-72B高出12.4个百分点。

在MMBench GUI L2上更是达到91.3%，刷新了纪录。

在手机导航任务上，MAI-UI-235B-A22B在AndroidWorld上取得76.7%的成功率，超过了UI-Tars-2的73.3%和Gemini-2.5-Pro的69.7%。

即便是最小的2B模型，也达到了49.1%的成功率，比之前最强的端侧模型Ferret-UI Lite高出21个百分点，相对提升75.4%。

在更接近真实场景的MobileWorld测试集上，MAI-UI-235B-A22B整体成功率41.7%，比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%，在需要调用MCP工具的任务上成功率51.1%，分别比之前最好的成绩高出32.1和18.7个百分点。

论文地址：
https://arxiv.org/abs/2512.22047

GitHub：

https://github.com/Tongyi-MAI/MAI-UI

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 👇 点亮星标

科技前沿进展每日见

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。