揭秘！座舱Agent如何“伸出”屏幕，控制座椅、空调、灯光？背后架构太硬核！

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 497 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #前端 #交互 #ubuntu #tcp/ip

佐思汽研发布《2025年座舱Agent工程化研究报告》。

《2025年座舱Agent工程化研究报告》从座舱Agent的现状出发，总结了研发、工程阶段的技术路线与头部主机厂Agent产品特点，并探讨座舱Agent的未来趋势、落地重点等。

动作执行：完成任务的最后一公里

从2023年大模型上车开始，座舱AI助手（AI Assistant）在每个阶段都有不同的主线任务。其中2025年座舱AI助手的重点是实现动作执行（Action），从单纯的“出主意”到“帮你办”，完成从“Assistant”向真正“Agent”转变的重要一步。

2023年至今座舱Agent的主要发展重点

来源：佐思汽研

2025年座舱AI助手的典型场景之一是餐饮点单：

2024年，当用户要点咖啡，座舱AI助手只能在地图上找到附近的咖啡店，然后用户手动操作选定店址，AI助手再完成导航，而下单、支付等环节需要用户自己完成，AI助手完全无法协助。
2025年，当用户要点咖啡，座舱AI助手已经能够确认用户意向后，自行完成下单、支付等一系列操作，节省用户注意力，优化用户体验。

理想同学通过肯德基“车速取”功能点单的全流程

来源：理想汽车

以理想同学通过肯德基“车速取”功能点单为例，整个流程分为5步：

理想同学与肯德基“车速取”功能的实现步骤

整理：佐思汽研

整个过程涉及到长期记忆库、工具调用、多智能体协作等方向的技术：

01 案例一：工具调用

2024年初，OPEN AI的Function Calling是座舱Agent在工具调用时采用的主流技术，聚焦单模型与单工具的直接交互；
2024下半年，Anthropic提出的MCP（Model Context Protocol）在Function Calling基础上解决 “多组件协同” 的问题，完善了Function Calling的应用场景和效率。
2025年4月，谷歌提出A2A（Agent2Agent）协议，进一步规范不同Agent之间的通信与协作方式。

工具调用的几种路线

整理：佐思汽研

以理想同学为例，2025年，其Agent落地方案就包括了MCP/A2A技术框架（另外一个框架是CUA）：

MCP/A2A路线：以车机Agent作为MAS系统的主导者，给第三方Agent下达执行任务，由第三方Agent完成各自的工作流程。
CUA（Cockpit Using Agent）：操作系统调用多模态大模型理解指令/任务，通过拆解规划，生成最终执行动作，并调用小程序、APP完成指令/任务。如在缴费场景中，理想同学经过一系列理解与规划，调用API对接支付宝车载助手，通过支付宝的生态，使用相关小程序完成支付。

训练过程中，理想团队在智能体强化阶段的Reward 模块优化中使用了MCP统管工具服务，如使用MCP Hub为训练任务和业务请求提供可调用的工具资源目录。

Reward Server分布式架构中的MCP技术

来源：理想汽车

在下一个阶段，理想同学计划在加强多模态能力的同时，实现COA（Chain of Action，行动链），即同一个模型不断思考如何去调用外部工具解决问题并行动，进一步提升工具调用、推理与行动等不同模块的协同性。

理想同学技术路线1.0到2.0

来源：理想汽车；整理：佐思汽研

02 案例二：GUI Agent

GUI Agent（图形用户界面智能体）是一种特定类型的 LLM Agent，用来处理用户以自然语言提出的指令或请求，通过屏幕截图或 UI 元素树理解 GUI 的当前状态，并执行模拟人机交互的动作，从而跨越各种软件界面。

GUI Agent通常包括操作环境、Prompt 工程、模型推理、动作执行、记忆等模块组件。

GUI Agent技术距离完全成熟尚有时日，但已有一部分车企在布局，包括理想、吉利、小米等。

如在上述点单场景中，理想同学在选择套餐时便采用了GUI Agent 技术，实现了无需用户动手，可自行操作屏幕相关组件。同时，理想团队也指出，GUI Agent操作的准确率也会影响CUA框架的最终执行效果（因为在付款过程需要扫描屏幕截图，用到了GUI Agent），如果准确率过低，可能会导致登记停车、缴纳停车费等复杂任务难以保证稳定体验。

以小米为例，推出BTL-UI（Blink-Think-Link）GUI Agent框架，在马尔可夫决策过程框架的基础上，运用GRPO算法。Agent需要在每个时间步骤接收当前的屏幕状态、用户指令和历史交互记录，然后输出结构化的BTL响应，将输入的多模态信息转换为包含视觉注意力区域、推理过程和执行指令的综合输出。

其实现方式与核心技术包括：

仿生交互框架：基于 BTL-UI（Blink-Think-Link）模型，模拟人类视觉注意力分配（眨眼阶段）、逻辑推理（思考阶段）和精确执行（执行阶段），支持复杂多步骤任务（如跨应用调用、多模态交互）
自动化数据生成：自动分析屏幕截图，识别出与用户指令最相关的界面元素，并为这些区域生成高质量的注意力标注。
BTL奖励机制：细致评估中间的每个认知阶段，检查AI是否正确识别了相关界面元素，是否进行了合理的逻辑推理，以及是否生成了准确的操作指令。

小米BTL-UI（Blink-Think-Link）框架分为“眨眼”、“思考”、“执行”三个阶段

数据来源：小米汽车；整理：佐思汽研

车企正处于从L2 Reasoners到L3 Agent迈进的阶段，L3又分为四个阶段

根据OPEN AI对AGI的定义，国内车企正处于从L2 Reasoners到L3 Agent迈进的阶段。在每个不同的阶段，都需要解决不同的问题，表现出相应的特性：

AGI的5个等级

来源：OPEN AI；整理：佐思汽研

在L3阶段，座舱Agent升级可分为四个阶段：

座舱Agent升级的四个阶段

整理：佐思汽研

在现阶段，大部分车企的座舱AI助手已经一定程度完成了“专业服务”，接下来需要实现“情绪共鸣”以及迈过“主动预判”这个坎。

以提供“情绪共鸣”阶段为例，头部玩家如蔚来的“Nomi”。

2025年，大部分AI助手的情绪聊天功能主要通过TTS技术模拟的腔调变化、知识库的专用词汇调用（如口语化的语气词）和预设的情绪场景workflow来实现。而相比其他座舱Agent，Nomi还额外具备两个独特优势：

实体外壳：Nomi通过外壳“Nomi Mate”（截至2025年11月已升级至3.0版本），能够具现化200多个动态表情，在真实世界给予情绪价值。如Nomi在与人进行语音交互时会模拟人与人之间对话时的头部动作，模拟人听到声音时头部转向声音来源的动作，实现了弧形转头轨迹。

Nomi的部分表情

情感设定：

在架构上，设定“情感引擎”专属模块，通过“情境智能”、“专属智能”和“情感表达”三个子模块，借助语音、视觉及多模感知技术，实现情景仲裁，得出一系列对于当前情境的理解，实现情绪场景下的自然类人反应。
在设定上，Nomi支持被赋予性格，可按照设定，通过类似GPT的流式预测模型进行搜索联想，表现出专属的情景反应，为每个人提供个性化体验（如能够模拟多个MBTI性格，相比之下理想同学MBTI设定就是固定的ENFJ）。

蔚来官方赋予的多个MBTI性格

来源：蔚来

实现“主动预判”后，座舱Agent从数字 AI 向物理 AI 突破

从L3.5+阶段开始，泛化性成为Agent能否灵活应对多场景任务的限制因素之一；为提升不同场景下的泛化性，Agent不仅需要学习策略（在某个状态下该做什么动作），更要通过学习环境动态模型（执行某个动作后世界会如何变化），实现在环境的直接交互中进行预测。

为避免因高质量数据的短缺造成的限制，解决方案之一是在真实的物理世界环境中进行学习，实现从数字 AI 向物理 AI 的突破。

以理想同学的训练为例，理想团队在大量使用互联网数据用于基座模型训练后，发现有数据对模型的能力提升效果已经降低，模型预训练的scaling law边际收益已经下降。

因此理想团队对下一阶段的训练方式做出改变，聚焦于模型与物理世界的交互，通过强化学习让模型去判断思考过程的对错，在与环境的交互中积累经验与数据。

理想团队对Agent阶段的路线规划

来源：理想汽车；整理：佐思汽研

World Labs李飞飞团队提出“增强型交互式智能体”（augmented interactive agents），该智能体具备多模态能力与 “跨现实无关”（cross reality-agnostic）集成特性，并内置涌现机制。

在训练相应智能体的过程中，李飞飞团队引入 “上下文提示”（in-context prompt）或 “隐式奖励函数”（implicit reward function），通过二者捕捉专家行为的关键特征，智能体可通过从专家演示中学习到的用于任务执行的物理世界行为数据进行训练。该数据的收集方式是将物理世界中的专家演示以“状态 – 动作对”（state-action pairs）的形式进行收集。

通过物理世界进行训练的交互机制

来源：李飞飞团队

2025年，OEM大多选择多智能体的路线来构建座舱AI体系，而多智能体协作恰巧也是提升Agent泛化性的途径之一，通过“领域专精 + 场景联动 + 群体学习”，从多个维度突破现有Agent的泛化性局限。

多智能体协作提升泛化性的三个维度

整理：佐思汽研

以广汽的Agent“北鼻”为例，通过基于大模型意图识别的多智能体协作，落地复杂场景的意图识别，打破垂类智能体 “无统一交互入口、协同低效” 的痛点，无需用户分别操作多个智能体（如单独调导航、空调），提升协作效率。其原理包括：

构建核心智能体：用汽车场景相关预设数据集（如车辆控制、导航等指令记录）微调预训练语言模型，得到意图识别大模型，再基于该模型构建 “意图理解智能体”，同时加入缓存服务提升响应速度。
解析用户意图：接收用户指令（如语音、触控指令），由意图理解智能体推理出意图识别结果（含 1-3 个意图及对应置信度，例：“找加油站” 置信度 0.85、“调温度” 置信度 0.9），并缓存指令与结果。
调用协同智能体：结合当前场景（如行车状态、天气）做协作决策，调用与意图相关的目标智能体（如导航、控车智能体）协同工作，接收各智能体执行结果。
仲裁反馈执行：依据历史置信度评分（智能体过往执行成功率）和当前执行结果仲裁；无历史评分时，用意图识别大模型推理仲裁，最终将结果反馈给执行系统（如车机、语音播报）完成操作。

广汽基于大模型意图识别的多智能体协作，应对复杂指令场景

那么，如何系统的去学习大模型LLM？

作为一名深耕行业的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！