文章讨论了中兴与豆包合作的系统级AI Agent手机(Nubia M153)及AI Agent技术在终端的应用前景。分析了当前技术实现路径(屏幕识别模拟点击和未来API直接调用)、云侧与端侧计算的优劣对比,以及AI Agent在手机、汽车等终端面临的共同挑战。AI正从回答问题的工具向能直接操作设备的"执行者"转变,这将重新定义人与机器的关系,但普及仍需跨越工程化、硬件演进和用户认知等多条轨道。

当 AI 从回答走向执行,终端产业链将迎来哪些革命?
最近一周,中兴和豆包合作研发的搭载了系统级 AI Agent 的手机——Nubia M153 赚足了眼球。
3499的价格刚刚发售就被抢购一空,在咸鱼二手市场近7日成交价炒到了3800。

从点外卖、逛淘宝再到跨APP完成复杂的任务,这些以往只能在PPT里看到的操作,第一次真正落地到消费终端。
还有越来越多的网友开始整活儿。在视频平台上,你甚至可以看到有人用豆包 AI 手机来打斗地主、和平精英、明日方舟和 LOLm 等游戏。
虽然大多数尝试都失败了,但反而进一步放大了它的讨论度。
就现有使用视频来看,“豆包 AI 手机”目前的使用体验还不尽人意。在一些日常的使用比如点外卖、买东西,还是会经常出现需要人多次确认的场景,并且执行一次任务的时间较长。

图源:网络视频截图
至于游戏场景,目前基本无法实现稳定映射。在斗地主的场景中,甚至会出现先出三个“2”的情况。
即使“豆包AI手机”目前的形态还是如此的不成熟,但这并不妨碍它成为过去一周里讨论度最高的 AI 产品。
或许是人们厌倦了过去十年没有太多变化的手机。而这一次,AI 不再是一个只会给答案的助手,而是一个能帮你执行任务的智能行动体。

这种第一次真正“不用动手”的体验,让用户感受到 AI 介入日常生活的具体样貌;同时,它也让整个产业链意识到:当系统级 AI Agent落地,生态将被迫重写。
于是,一个更关键的问题浮现出来:从今天略显粗糙的“工程样品”,到真正意义上的系统级 AI Agent 落地,产业还需要跨越哪些门槛?
随之而来的是,整个 AI 产业链带来怎样的变化?
01 热度之外 系统级 AI Agent 真实的技术形态
如果把市场的情绪先放到一边,回过头来看这次的技术本身,它带来的变化其实非常直接。
我们采访的业内人士也给出了类似判断:对于此次的“豆包 AI 手机”而言,最大的改变在于,它将大模型前装到了手机系统中,把各 APP 尤其是系统层面的权限给到大模型。
这意味着大模型第一次获得了完全操纵手机硬件的能力,而不是被限制在单个应用内部。
在具体操作执行的实现上,目前主要有两种路径:

一种是读取屏幕、识别界面元素,再模拟点击去执行操作。这条路径技术上并不复杂,大模型在“理解屏幕”这方面的能力已经比较成熟。
目前市面上主流大模型都能做到比较好的效果,因此它也是当下最容易落地的方案。而此次“豆包 AI 手机”也正是这样去实现的。
另一种则是未来更可能演进到的方式:直接调用系统的 API,而不是通过图片判断后再模拟点击。
受访者提到,随着生态完善,系统层会开放更多可控接口,届时整体的流程将会更加简化,在算力、token 消耗和使用稳定性上,都将会更有更好的效果。

在官方视频中也同样提到这个未来的发展路径。
至于模型端,这次应用的改变则不会产生太大的变化。
业内人士向我们表述,实现目前的系统级 AI Agent 效果,并不需要重新训练一个基础模型,而是在现有模型之上做一个微调的垂域版本,并加入训练的反馈强化即可。这也是目前最实际、最容易落地的路径。

豆包手机拆解 图源:网络视频截图
至于外界最关心的“端侧还是云侧”,以这台手机的售价、芯片规格以及可承受的功耗来看,它几乎不可能在本地跑完整的推理流程。
因此当前版本大概率依赖云端推理,这也解释了其目前处理任务速度较慢的原因。
总的来说,此次 AI Agent 落地到手机系统,更多的是解决了权限与工程化的问题,系统级 AI Agent 的出现,让大模型第一次有机会以“执行者”的身份进入手机生态。
但这只是一个开始,从“能用”到“好用”之间,还面临着更多技术和硬件上的难题。
02 AI 大模型落地:云侧 OR 端侧?
在用户体验背后,比较关键的一个落地路径选择是:大模型到底应该放在云上跑,还是放到手机本地跑?
从目前的现状来看,这两条路当下都不够成熟,各有难处。
在云端跑的最大优势,是算力充足。复杂的连续推理、跨多界面的大模型理解,都可以在云侧完成,模型大小不受限制,上下文能力也更强。
但这条路径也有明显的代价:每一步都需要把屏幕内容压缩、上传,再由云端推理后回传结果。整个链路要保持流式运作,延时、带宽、弱网环境、token 成本、隐私安全都会成为阻碍。

只要其中一个环节波动,用户体验就会直接下降。
端侧计算看似能解决这些问题,但现实更加苛刻。业内人士给出的判断是,要支撑系统级 AI Agent 的操作能力,以及连续的视觉理解、推理、动作规划,模型大小至少要到 7B 这个量级。模型一旦展开,对内存、带宽和实时算力的要求都会显著上升。
更直接的是,想要运行这个大小的大模型,至少需要接近 100 TOPS 的算力,而相应的功耗大概在 20–30W。这对任何一台依赖电池、散热空间有限的手机来说,都是无法承受的数值。
因此,手机端很难在短期内具备完全独立的系统级 AI Agent 能力,而云端也无法提供稳定可靠的低延时体验。

换个角度来看,云端和端侧也并不是非此即彼的关系。
业内人士判断,未来更可能的形态是“端云协同”——认知推理、长链路、视频流理解等需要大量上下文记忆的场景适合放在云端;而涉及隐私、需要毫秒级实时性的动作,则更适合放在本地完成。
最终的形态可能是:系统根据任务类型自动分流,两者的结合,可能才是从工程机走向真正可用产品的唯一解法。
无论是把推理放在云端,还是尝试在本地展开大模型,只是系统级 AI Agent 落地的“第一道门槛”。
算力的路径如何选择只是开始,真正影响产品能否从工程机走向量产的,还包括模型本身的训练方式、场景适配能力,以及用户实际使用时的可接受程度。
03 从手机到汽车 AI Agent 落地有哪些共同难题
从更大的产业视角看,中兴与豆包的尝试并非孤例。
过去一年,无论是海外的 AI 浏览器、新兴的桌面级 Agent,还是各家在 PC、平板、智能座舱上的探索,都指向同一件事:AI 正在从回答问题的接口,向能直接操作设备的“系统级角色”迁移。
把视角从手机拉开,会发现除算力外, 系统级 AI Agent 落地在更多终端上还面临着很多共同的难题。
采访中有业内人士跟我们提到,在汽车里做系统级 AI Agent 的难度其实比手机低不少。汽车在功耗和散热上都比手机更宽松,也能容纳更大的算力芯片。

同时,车内拥有更多的摄像头、雷达和传感器,是一个比手机更立体的空间,也有着更多的交互空间。
尽管如此,目前各家智能座舱上的系统级 AI Agent 多数还处在比较初级的阶段。行业普遍的状态是:在尝试、积累、适配。
一方面,端侧 AI 模型能力上升到可用水平的时间还不够长,要落地到一个具体的场景还需要不断校准模型,补数据、调接口,把动作链路、逻辑链路一个个磨到稳定。
但受访者的判断,随着训练样本的积累,未来一年可能会看到明显的进步,但今天的版本依然只是起点。

另一方面,技术成熟并不等于可以规模落地。另一位受访者强调了一个更现实的问题:AI 永远无法做到 100% 理解用户意图。人类都做不到这一点,AI 更不可能。
但人与人之间有容错,人对机器的容忍度却极低——同样的误解,人类会接受朋友,但不会接受手机或汽车等设备。
当 AI “误解”执行任务的时候,就可能造成用户体验的严重损伤。即便错误本身不严重,只要发生几次,用户可能就会直接放弃使用。
这是智能汽车、服务机器人等系统级 AI Agent 都会碰到的共同难题。
他认为这并非技术瓶颈,而是认知问题。人类需要时间去接受“机器也会犯错”这件事,就像自动驾驶一样。
早期无人车的错误几乎会让人放弃整个技术,但当事故率降到足够低时,它最终会像飞机一样成为被社会普遍接受的交通方式。

技术从实验室到产业,最大的变量常常不是大模型本身,而是用户的心理阈值。
所以,当前无论是手机、汽车、眼镜还是机器人等各种终端设备,AI 落地不仅要跨过“能不能做”的技术门槛,还要跨过“用户愿不愿意接受不完美”的心理门槛。
前者可以靠更强的算力、更好的模型、更严谨的工程化解决;后者却只能靠时间、体验和社会认知的迁移。
当 AI 从工具走向“执行者”,从回答走向行动,它带来的不仅是一项新的功能、新的体验,而是一次人与机器关系的重新定义。
技术会继续向前推进,但它真正进入主流生活的速度,将由用户的接受程度决定。
04 写在最后
如果把“豆包 AI 手机”放到整个产业进程里看,它并不是一个“成熟产品”,距离稳定的体验仍有着明显的距离。离真正的普及,还有工程化、硬件演进、用户认知等多条轨道需要同时推进。
今天的豆包手机不是答案,但它至少抛出了一些问题。
这些问题不会在一个版本中解决,也不会在一个厂商中解决。它更像是一条需要长时间持续推动的产业链工程。
而产业的下一步,也将围绕这些问题的解法展开。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



