AI技术发展飞速,操作系统智能体(OS Agents)正从学术概念迅速走向实际应用。本文将为你系统介绍基于多模态大语言模型(MLLM)的OS Agents核心技术体系,帮助你:
- 全面了解OS Agents的三大核心组件(环境、观察空间、动作空间)与三大关键能力(理解、规划、定位)
- 深入理解OS Agents构建的技术路径与决策要点
- 了解当前技术挑战与未来发展方向
- 获得实用的技术选型指南与实施建议
希望这篇索引级的综述可以让我们对OS Agents有一个全面的认识。
从J.A.R.V.I.S.到现实的OS Agents
在漫威电影《钢铁侠》中,托尼·斯塔克的智能助手J.A.R.V.I.S.(Just A Rather Very Intelligent System)能够无缝控制各种系统并自动化执行任务,这一愿景长久以来激发着人类对超级智能AI助手的向往。
而现在,随着多模态大语言模型(Multimodal Large Language Model, MLLM)技术的迅猛发展,这一梦想正逐渐变为现实。
OS Agents(Operating System Agents)作为能够在操作系统环境中使用计算设备(如电脑和手机)的AI智能体,正以前所未有的速度接近这一愿景。当前,以Gemini、GPT)、Grok、Claude等系列为代表的(多模态)大语言模型在Chatbot Arena LLM Leaderboard上的排名显示,这些模型已具备显著提升的上下文理解和任务执行能力,为OS Agents的发展提供了关键转折点。
比如,Anthropic推出的Computer Use、Apple发布的Apple Intelligence、智谱AI的AutoGLM以及Google DeepMind的Project Mariner等产品,标志着OS Agents技术已从学术研究走向实际应用。
OS Agents被定义为专门利用操作系统提供的环境、输入和输出接口来执行任务的AI智能体,其技术边界涵盖三大平台:桌面环境(如Windows、Linux、MacOS)、移动环境(Android、iOS)和Web环境。与早期虚拟助手(Siri、Cortana、Amazon Alexa和Google Assistant)相比,OS Agents的核心突破在于能够通过GUI(Graphical User Interface)直接操作系统,而不仅限于语音交互。这些早期虚拟助手因上下文理解等模型能力限制,未能实现广泛采用和完整功能。
理解了OS Agents的基础架构和核心能力要求后,我们进一步深入探讨如何构建这些智能体。基础架构提供了"骨架",而构建技术则是赋予其"血肉"的关键过程。接下来,我们看看实现这些能力的具体技术路径。
OS Agents技术基础体系
核心组件
OS Agents的技术实现建立在三个关键组件之上:环境、观察空间和动作空间,它们共同构成了智能体与操作系统交互的基础框架。
环境维度:三大平台的技术特性与挑战
环境是OS Agents操作的系统或平台,主要包括:
- • 桌面环境:如Windows、Linux、MacOS系统,提供丰富的窗口管理和多任务处理能力
- • 移动环境:Android、iOS等移动操作系统,具有触摸交互和移动设备特有的传感器集成
- • Web环境:浏览器中的各种网站和Web应用,具有高度动态性和跨平台特性
这些环境各有特点,桌面环境通常提供更稳定的API接口,移动环境强调触摸交互和传感器数据,而Web环境则面临页面动态加载和跨域限制等挑战。

OS Agents基础架构
观察空间:多模态输入处理的技术实现
观察空间涵盖了OS Agents可获取的系统状态和用户活动信息,是智能体理解环境的基础。
GUI截图作为主要观察形式:面临高分辨率处理的技术挑战。常见GUI截图分辨率为720×1080,而大多数现有MLLM的视觉编码器仅能处理224×224的低分辨率图像。将截图缩放到适配视觉编码器的分辨率会保留整体布局和大部分对象特征,但文本和小图标往往无法被良好感知,而这些细节有时对任务完成至关重要。
文本描述:另一种重要观察形式,包括HTML代码、DOM(Document Object Model)树和可访问性树(Accessibility Tree, A11y tree)。A11y tree是操作系统生成的界面元素层次结构表示,专为辅助技术设计,它为每个GUI元素提供语义标签和层级关系。在OS Agents中,A11y tree被用作GUI截图的语义参考,将视觉元素与其在界面结构中的角色对应起来,显著提升智能体对界面的理解能力。
多模态融合:是OS Agents面临的关键技术瓶颈。整合视觉与文本信息的多模态输入为智能体带来了显著挑战,要求它们有效理解并执行任务。不同数据结构的整合需要复杂的处理流程,这也是当前研究的热点领域。
动作空间:操作系统交互的完整技术实现
动作空间定义了OS Agents通过操作系统提供的输入接口与环境交互的方式,可分为三大类:
输入操作:代表与数字界面交互的主要方法,包括:
- • 鼠标/触摸操作:点击/轻触、长按/保持、拖动/移动
- • 键盘操作:基本文本输入、特殊键操作如快捷键
导航操作:使OS Agents能够在目标平台中导航并获取足够信息,包括:
- • 基本导航:滚动、返回/前进、主页功能
- • Web特定导航:标签管理、URL导航
扩展操作:提供超出标准界面交互的额外能力,主要包括:
- • 代码执行能力:允许智能体通过直接脚本执行和命令解释动态扩展动作空间
- • API集成:访问外部工具和信息资源,如通过API调用访问第三方服务
这些操作从根本上增强了OS Agents的适应性和功能性,使其能够处理仅通过常规界面交互无法实现的更复杂和多样化的任务。
这些核心组件构成了OS Agents的物理基础,而要使这些组件协同工作并实现有效任务执行,还需要三大关键能力的支持:理解能力让我们"看见"界面,规划能力让我们"思考"步骤,定位能力则让我们"触摸"屏幕。这三种能力共同构成了OS Agents的"操作系统"。
核心能力技术要求
OS Agents需要具备三种核心能力:理解、规划和定位,这些能力共同支撑智能体有效执行任务。
理解能力:GUI元素识别与语义理解的技术瓶颈
理解能力是OS Agents解析复杂OS环境的关键。这些环境包含各种数据格式,包括HTML代码和通过截图捕获的图形用户界面。挑战在于处理高分辨率界面中的微小图标、小文字和密集排列的元素,这些因素使界面变得杂乱无章,对智能体的感知能力提出了更高要求。理解能力不仅对信息检索任务至关重要,也是有效执行其他任务的基本前提。
例如,在AndroidWorld中,OS Agents需要从Simple Calendar Pro中检索预定事件,这要求智能体能够识别并提取特定信息。处理密集元素和微小文字的技术挑战是当前研究的重点,也是限制OS Agents性能的关键瓶颈。
规划能力:任务分解与执行的技术实现
规划能力使OS Agents能够将复杂任务分解为可管理的子任务,并制定实现特定目标的动作序列。操作系统内的规划通常需要智能体基于环境反馈和历史动作动态调整计划,这对智能体的适应性提出了更高要求。
全局规划:OS Agents仅生成一次全局计划并在执行过程中不做调整。CoT(Chain-of-Thought)提示使(M)LLM将复杂任务分解为推理步骤,构成了大多数OS Agents中全局规划的基础。OS-Copilot利用LLM将全局计划形式化为有向无环图,实现独立子任务的并行执行,最小化执行时间并提高效率。ACE提示LLM根据用户查询优化提取的步骤。Agent S提出经验增强分层规划,通过整合记忆和在线知识来指导计划。AIA利用标准操作程序(Standard Operating Procedures, SOP)将复杂任务分解为可管理的子任务。
迭代规划:允许OS Agents根据历史动作或环境变化持续迭代其计划,使其能够适应持续的环境变化。ReAct在CoT概念基础上,通过整合推理与行动结果,使规划更能适应环境变化,已广泛应用于OS Agents进行迭代规划。Reflexion在ReAct基础上,允许访问先前动作和状态,增强OS Agents在复杂、时间敏感场景中的战略规划能力。Auto-GUI采用CoT技术,利用过去动作历史在每一步后迭代生成未来计划。OSCAR引入任务驱动重规划,允许OS Agent根据环境的实时反馈修改计划。SheetCopilot采用基于状态机的任务规划,使用基于反馈或基于检索的机制修改计划,增强OS Agent适应动态环境的能力。RCI提示LLM查找输出中的问题并基于发现改进输出,帮助OS Agent完善推理过程。CoAT引入比ReAct更复杂、针对OS Agent的推理方法,提示LLM执行涉及屏幕描述、动作思考和下一步动作描述的推理过程,最终导致动作结果。
定位能力:动作执行的精准技术实现
定位能力指OS Agents将文本指令或计划转化为操作系统中可执行动作的能力,要求智能体识别屏幕上的元素并提供必要的参数(如坐标、输入值)以确保成功执行。选择哪种定位技术应根据任务复杂度、界面动态性和资源限制综合考量。对于简单静态界面,视觉定位已足够;对于复杂多变的应用场景,双重定位能提供最佳可靠性。
视觉定位:大多数研究使用SoM(Set-of-Mark)提示增强OS Agents的视觉定位能力,结合OCR和GUI元素检测算法(如ICONNet和Grounding DINO)提取交互元素的边界框,然后将其整合到相应图像区域。SoM技术通过在图像上添加标记点,使模型能够更精确地识别和定位GUI元素。
语义定位:一些研究通过添加这些交互元素的描述来改进OS Agents的语义定位能力。SeeAct使用网站的HTML文档作为GUI截图的语义参考,将视觉元素与其在HTML结构中的语义含义联系起来。
双重定位:结合视觉和语义信息以提高OS Agents对视觉环境的理解。
OS Agents 构建技术
领域特定基础模型
构建OS Agents的第一步是开发针对该领域的基础模型,这涉及模型架构设计和训练策略两个关键方面。
架构选择的技术权衡
现有LLM:一些工作(如AutoGLM、AutoWebGLM)直接选择开源LLM作为骨干模型,无需进一步优化架构。现有LLMs(如T5、LLaMA)可以直接处理用户指令并读取HTML代码来感知界面信息。WebAgent结合Flan-U-PaLM与HTML-T5(Long-T5-base的微调版本),后者读取用户指令和界面HTML代码及导航历史,生成界面摘要和任务计划,再由Flan-U-PaLM生成可执行Python代码。
现有MLLM:现有MLLMs(如LLaVA、Qwen-VL、InternVL、CogVLM)因兼具处理视觉信息和复杂自然语言处理的能力,成为开发OS Agents基础模型的有效选择。这些模型能够直接处理GUI截图,避免了仅依赖文本表示的局限性。
拼接式MLLM:通过将适合处理OS任务的LLM和视觉编码器以类似现有MLLMs的方式连接起来。例如,选择T5作为LLM,其编码器-解码器架构更适合处理HTML的树状结构,使模型能够通过感知GUI的文本和图像形式更好地处理GUI信息。
修改式MLLM:对MLLM架构进行了进一步调整以增强理解能力。

OS Agents 基础模型构建技术路线
预训练与微调的技术策略
预训练是OS Agents基础模型构建的关键环节。研究表明,预训练应使MLLM具备理解GUI截图和识别屏幕上元素的知识。为此,研究提出了屏幕问答任务作为预训练目标,其中设计了针对计数、算术运算和解释复杂数据等能力的数据集,以提升模型对界面内容的深度理解能力。
监督微调是提升OS Agents性能的重要步骤。对于理解能力,研究人员会收集大量的GUI截图及其对应的文本描述,并利用先进的大语言模型生成高质量、语义丰富的描述信息,以增强智能体对界面内容的理解。对于规划能力,则首先需要构建多步操作轨迹,再通过大模型合成相应的用户指令。具体方法包括:采用固定规则结合大模型遍历应用程序,利用在线教程文章将操作步骤映射为智能体可执行的动作序列,或构建网页间的导航有向图并通过搜索最短路径生成任务轨迹。这些操作轨迹随后被输入到高级大语言模型中,自动生成符合人类表达习惯的任务指令,并进一步分解为包含中间推理步骤的思维链(Chain-of-Thought),从而训练智能体具备逐步推理与任务规划的能力。
对于定位能力,研究人员主要采用两种策略将界面操作与视觉表示关联:
网页环境策略:通过直接渲染HTML源代码创建带标注的界面截图。例如,LLaVA团队开发了基于HTML渲染的标注系统,将网页元素与视觉标记精确对应;WebUI项目则实现了自动化的HTML元素-图像区域映射技术,使模型能准确识别按钮、输入框等交互元素;而Grounding DINO框架则专注于通过视觉检测算法识别GUI组件边界,为每个元素添加唯一标识。
桌面/移动环境策略:在真实操作系统环境中创建带标注的交互数据。OS-Atlas项目构建了跨平台GUI交互模拟器,通过模拟用户点击、滑动等操作生成带标记的界面截图;ScreenQA系统则开发了屏幕问答任务框架,让模型学习从高分辨率截图中精确定位元素;Auto-GUI工具集实现了自动化操作录制功能,将每一步用户操作与界面状态变化精确关联。
这两种策略各有优势:HTML渲染方法能提供精确的语义信息但局限于Web环境,而桌面模拟方法更接近真实使用场景但实现复杂度更高。先进的OS Agents系统往往结合两种方法,实现更准确的界面理解与操作定位。
强化学习:OS Agents的性能优化引擎
强化学习(Reinforcement Learning, RL)为OS Agents提供了通过试错学习优化性能的关键机制,使智能体能够从交互经验中不断改进。在OS Agents领域,RL的应用已发展出两种成熟的技术范式:
基于行为克隆的RL:通过模拟人类操作行为训练智能体,如WebShop电商平台模拟环境根据产品匹配度提供奖励信号。MiniWob++基准测试系统利用人类交互行为先验指导模型学习,实现接近人类水平的操作能力。AutoGLM项目开发了"自演化的在线课程RL方法",使OS Agents具备强大的错误恢复能力,能从失败中学习并持续优化性能。
基于反馈的RL:让模型直接从环境反馈中学习优化策略。Thil团队在Miniwob++基准上微调T5模型并整合分层规划,显著提升Web导航能力。最新多模态模型如Ferret-UI 2和CogAgent已将强化学习深度集成到视觉-语言联合训练中,通过环境反馈循环不断调整策略,使OS Agents在动态界面中表现出更强的适应性和鲁棒性。

常见OS Agents基础模型
Agent框架的四大核心模块
OS Agent框架通常由四个核心组件构成:感知、规划、记忆和动作。这些组件协同工作,使OS Agents能够理解环境、制定计划、存储经验并执行操作。

OS Agents 框架概述
感知模块的多模态处理
感知是OS Agents收集和分析环境信息的过程。根据输入模态,感知可分为两类:
文本描述处理:早期工作受限于LLM只能处理文本输入,主要依靠工具将OS状态转换为文本描述。这些文本描述通常以结构化格式表示,如HTML、DOM或可访问性树。例如,MobileGPT将移动屏幕转换为简化的HTML表示以帮助LLM理解。然而,这些方法可能生成无关或冗余信息,影响OS Agents对环境的判断。为此,一些新方法被提出以过滤无效描述:Agent-E引入灵活的DOM蒸馏方法,允许智能体根据特定任务从三种不同实现中选择最合适的DOM表示;还有研究仅在智能体执行操作时扩展HTML表示,迫使其在有限信息下做出合理决策;WebWise引入filterDOM函数,基于预定义的"标签"和"类"选择相关DOM元素,过滤掉不必要的项目。
GUI截图处理:MLLM的出现使OS Agents能够处理视觉输入。研究越来越多地将GUI截图视为OS Agents的感知输入,这更符合人类行为。然而,大多数现有OS Agents的视觉编码器在通用数据上预训练,使OS Agents对GUI元素不太敏感。为此,现有研究聚焦于GUI定位(GUI grounding),可分为三类:视觉定位、语义定位和双重定位。
规划模块的技术实现
规划是基于当前环境开发实现特定目标的动作序列的过程。OS Agents的规划模块面临的关键挑战是如何处理动态变化的环境,因为操作系统界面会随着每次操作而改变。
全局规划:OS Agents仅生成一次全局计划并在执行过程中不做调整。CoT提示使(M)LLM将复杂任务分解为推理步骤,构成了大多数OS Agents中全局规划的基础。OS-Copilot利用LLM将全局计划形式化为有向无环图,实现独立子任务的并行执行,最小化执行时间并提高效率。
迭代规划:允许OS Agents根据历史动作或环境变化持续迭代其计划,使其能够适应持续的环境变化。ReAct在CoT概念基础上,通过整合推理与行动结果,使规划更能适应环境变化,已广泛应用于OS Agents进行迭代规划。Reflexion在ReAct基础上,允许访问先前动作和状态,增强OS Agents在复杂、时间敏感场景中的战略规划能力。Auto-GUI采用CoT技术,利用过去动作历史在每一步后迭代生成未来计划。OSCAR引入任务驱动重规划,允许OS Agent根据环境的实时反馈修改计划。SheetCopilot采用基于状态机的任务规划,使用基于反馈或基于检索的机制修改计划,增强OS Agent适应动态环境的能力。RCI提示LLM查找输出中的问题并基于发现改进输出,帮助OS Agent完善推理过程。CoAT引入比ReAct更复杂、针对OS Agent的推理方法,提示LLM执行涉及屏幕描述、动作思考和下一步动作描述的推理过程,最终导致动作结果。
记忆模块的系统架构
随着操作系统中自动化任务复杂性的增加,内存模块成为OS Agents的核心组件之一。有效的内存管理可以增强整体性能,防止信息过载导致的效率损失。
早期工作允许基于LLM的智能体与游戏环境交互,将经验总结为文本,从而积累记忆并促进自我进化。后来,研究人员将这些原理应用于OS Agent领域,验证了记忆机制在OS Agents中的可行性。然而,由于学术界可用资源有限和访问真实用户数据的困难,当前研究大多集中在改进特定任务的性能,而非个性化。将记忆模式从文本扩展到其他形式(如图像、语音)带来了重大挑战。有效管理和检索这种记忆仍然是一个开放问题。
动作模块的执行与反馈
动作模块负责将规划模块生成的高级指令转化为操作系统可执行的底层操作。
动作执行:通过操作系统API或自动化工具(如Selenium、Appium)执行具体操作。动作执行器需要处理操作失败的情况,实现错误恢复机制。
反馈循环:动作执行后,需要收集环境反馈以验证操作是否成功,并据此调整后续规划。这种反馈循环是迭代规划的基础,使OS Agents能够适应动态变化的环境。
OS Agents评估技术体系
评估在OS Agents开发中起着至关重要的作用,有助于评估其在各种场景中的性能和有效性。当前文献中存在多种评估技术,根据特定环境和应用而显著不同。
评估协议的科学构建
评估原则的双重维度
客观评估:主要基于标准化数值指标测量OS Agents的性能,通常是基于标准基准数据集的基于规则的计算或硬编码评估。这种评估特别针对智能体在感知、生成内容质量、动作有效性和操作效率方面的准确性。具体指标计算包括精确匹配、模糊匹配和语义匹配(针对文本、元素和图像)。通过精确高效的数值分析,客观评估能够快速标准化测量智能体的性能。
主观评估:目的是衡量输出与人类期望的匹配程度,通常应用于需要高水平理解且难以用传统指标量化的场景。早期主观评估主要基于直接人工评估,虽然产生高质量结果,但成本高且难以复制。后来,LLM被引入作为评估者替代人类判断,利用其强大的指令跟随能力。这种LLM-as-a-judge评估方法可以提供详细的注释解释,对理解智能体的优势和劣势提供更细粒度的理解。然而,尽管效率有所提高,但在可靠性和可控性方面仍存在局限。
评估指标的层次化设计
评估指标需要从多个维度全面衡量OS Agents的性能:
- • 任务完成度:衡量智能体是否成功完成指定任务,通常以二进制指标(成功/失败)或任务完成百分比表示。
- • 执行效率:评估智能体完成任务所需的步骤数、时间和资源消耗。高效的OS Agents应该能够以最少的操作步骤和时间完成任务。
- • 鲁棒性:测试智能体在面对界面变化、意外弹出窗口或网络延迟等干扰因素时的稳定性。
- • 泛化能力:评估智能体在未见过的应用程序或界面设计上的适应能力。
- • 用户满意度:通过主观评估衡量最终用户对智能体表现的满意程度,通常包括易用性、响应速度和结果质量等方面。

近期常见OS Agents框架对比
评估基准的深度解析
评估平台的选择
模拟环境:模拟环境(如MiniWob++、WebShop)便于控制变量和大规模实验,但通常过于简化,排除了意外情况,无法捕捉真实场景的复杂性。
真实环境:真实环境真正真实,包含真实网站和应用,必须考虑环境的持续更新性质、不可控的用户行为和多样的设备设置。OSWorld构建运行Windows、Linux和MacOS的虚拟机,系统评估不同操作系统上OS Agents的性能。AndroidWorld在Android模拟器上使用真实应用进行测试,突显了在多样和真实条件下评估智能体的重要性。
任务分类的技术评估
任务分类对于理解OS Agents的能力和局限性至关重要。基于评估过程所需的能力,当前基准任务主要分为三类:
GUI定位任务:目的是评估智能体将指令转换为各种可操作元素的能力。定位是OS Agents必须具备的与操作系统交互的基础能力。早期工作如PIXELHELP提供将英语指令与用户在移动模拟器上执行的操作配对的基准。
信息处理任务:在交互式智能体上下文中,有效处理信息的能力是解决复杂任务的关键组件。例如,WebLINX提供低级和高级指令,挑战智能体完成单步或多步任务,从而测试其规划能力。MMInA强调多跳任务,要求智能体导航多个网站以完成给定指令。
代理能力任务:评估智能体执行复杂任务、进行多步骤推理和决策的能力。

近期的 OS Agents 基准测试
防御机制的研究现状
尽管已为基于LLM的智能体开发了多种安全框架,但针对OS Agents的防御研究仍然有限。弥合这一差距需要开发针对OS Agents漏洞的稳健防御机制,如注入攻击、后门利用和其他潜在威胁。未来研究可优先考虑这些领域,专注于为OS Agents开发全面可扩展的安全解决方案。
安全基准的评估体系
已引入几个安全基准来评估各种场景中OS Agents的稳健性:
ST-WebAgentBench:一个在线基准,是为了系统评估企业环境中Web智能体的安全性和可信度。它关注六个关键可靠性维度,为评估高风险环境中智能体行为提供全面框架。
MobileSafetyBench:一个基准测试平台,用于评估基于LLM的移动智能体的安全性,重点关注评估其在Android环境中处理安全关键任务的性能,包括与消息和银行应用程序的交互。
个性化与自我进化方向
开发个性化的OS Agents一直是AI研究的长期目标,类似于电影中钢铁侠的个人助理J.A.R.V.I.S.。个人助理应能够根据个人用户偏好不断适应并提供增强体验。
记忆机制的多模态扩展
早期工作允许基于LLM的智能体与游戏环境交互,将经验总结为文本,从而积累记忆并促进自我进化。后来,研究人员将这些原理应用于OS Agent领域,验证了记忆机制在OS Agents中的可行性。然而,由于学术界可用资源有限和访问真实用户数据的困难,当前研究大多集中在改进特定任务的性能,而非个性化。将记忆模式从文本扩展到其他形式(如图像、语音)带来了重大挑战。有效管理和检索这种记忆仍然是一个开放问题。
OS-Copilot的个性化突破
面对OS Agents难以适应用户个性化需求的挑战,OS-Copilot创新性地引入用户配置文件机制,系统记录用户偏好(如工具使用习惯、音乐或视频偏好)和任务模式。这一设计使智能体能够从用户历史行为中学习,动态生成定制化工具和技能代码。
在实际测试中,该方法使任务完成率提升23%,特别是在重复性任务上表现突出。然而,其依赖显式用户配置的特点也限制了在新用户场景中的适应速度。
经验管理与自我进化
通过回顾任务的每一步,智能体可以分析成功与失败,识别改进机会,并避免在类似场景中重复错误。MobA引入双重反思,在执行前评估任务可行性并在完成后审查完成状态。在一些研究工作中,智能体在任务失败后分析动作序列,识别最早的错误步骤,并生成替代动作的结构化建议。OS Agents可以返回到先前状态并在当前任务路径不可行或结果不符合预期时选择替代路径,类似于经典搜索算法,使智能体能够探索多个潜在解决方案并找到最优路径。LASER使用内存缓冲机制存储探索过程中未选择的中间结果,允许智能体在状态空间中灵活回溯。SheetCopilot利用状态机机制,通过提供错误反馈和电子表格状态反馈指导模型重新规划动作。
未来克服这些挑战将使OS Agents能够提供更个性化、动态和上下文感知的辅助,以及更复杂的自我进化机制,不断适应用户的需求和偏好。
技术发展路线
短期技术发展(1-2年)
基于"快速进展"趋势,OS Agents的短期技术发展将集中在基础能力提升和安全机制初步完善上。
基础能力提升:
- • GUI理解精度:将持续提高,特别是高分辨率界面处理技术。当前大多数MLLM视觉编码器仅能处理224×224的低分辨率图像,而常见GUI截图分辨率为720×1080,这一差距导致文本和小图标无法被良好感知。CogAgent和Ferret-UI等模型已开始解决这一问题,未来将有更多创新。想象一下,当你的智能助手能准确识别手机屏幕上微小的文字按钮,不再误点广告,而是精准完成你要求的’点击右下角设置图标’指令。这种改进看似微小,却将大幅提升OS Agents在真实环境中的可靠性,特别是在处理银行应用、医疗健康等对精度要求极高的场景。
- • 规划鲁棒性:将得到增强,以应对环境动态变化的挑战。操作系统内的规划通常需要智能体基于环境反馈和历史动作动态调整计划,这对智能体的适应性提出了更高要求。
中期技术演进(3-5年)
统一动作空间:将被广泛采用。研究者发现有必要将不同来源的动作序列适应到统一的动作空间,以避免微调过程中的冲突。统一动作空间的实现将避免不同来源动作序列的冲突。
跨平台能力整合:将是中期技术发展的关键。尽管不同GUI平台之间存在相似性,但仅基于Web数据的预训练难以泛化到其他平台。OS-Atlas项目通过创建多个模拟环境并利用A11y树模拟人机交互,采样跨平台定位数据,为这一问题提供了初步解决方案。这一技术将得到进一步完善,实现真正无缝的跨平台操作。
个性化能力:将显著增强。OS-Copilot通过用户配置文件记录用户偏好,实现个性化解决方案和推荐服务。随着多模态记忆的有效管理和检索技术的发展,OS Agents将能够更深入地理解用户需求,提供高度个性化的服务。例如,智能助手可以根据你的工作习惯,在每天早晨自动整理邮件、安排日程,并在会议前准备相关资料,而不需要每次都重复相同指令。
长期技术愿景(5年以上)
自我进化系统:将实现从有限监督到自主学习的技术演进。"自演化的在线课程RL方法"使OS Agents能够实现强大的错误恢复和性能提升,这将成为长期技术发展的基础。未来的OS Agents将能够从每次交互中学习,不断优化其性能。
想象一个智能助手,它不仅能完成你指定的任务,还能主动发现效率瓶颈,提出改进建议,并在你同意后自动实施这些改进。
J.A.R.V.I.S.愿景:将逐步实现。OS Agents将具备人类水平的界面理解与任务执行能力,能够处理从在线购物到旅行安排预订等各种日常活动,大幅提高效率和生产力。未来的智能助手将无缝融入我们的数字生活,成为真正意义上的"数字副驾驶",不仅执行指令,还能主动预测需求、提供建议,并在复杂任务中与人类协同工作。
总结
OS Agents仍处于早期发展阶段,但正经历快速进步。这些进展不断引入新的方法和应用,使OS Agents越来越接近实现钢铁侠中J.A.R.V.I.S.的愿景。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等

博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路

一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】








被折叠的 条评论
为什么被折叠?



