论文解读 | OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

最新推荐文章于 2025-11-25 12:11:01 发布

原创

最新推荐文章于 2025-11-25 12:11:01 发布 · 957 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #计算机视觉 #chatgpt #AIGC #语言模型

非常高兴有机会分享我们的最新综述《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》。最近，由Anthropic推出的Computer Use利用基于多模态大模型的智能体操控电脑完成各种任务，让人们为之兴奋，也带动了学术界与工业界在OS Agents相关领域的研究与发展。浙江大学联合OPPO、零一万物等十个机构共同梳理了OS Agents的发展现状以及未来可能，并形成了一篇综述，旨在推动该领域的持续发展。如下是我们对论文的中文解读，更多细节欢迎访问我们的论文以及开源仓库！

论文题目：OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

论文链接：https://github.com/OS-Agent-Survey/OS-Agent-Survey

项目主页：https://os-agent-survey.github.io

研究机构：浙江大学、复旦大学、OPPO、中国科学院大学、中国科学院自动化研究所、香港中文大学、清华大学、零一万物、香港理工大学、上海交通大学

1 引言

《钢铁侠》中的贾维斯（J.A.R.V.I.S.）能够帮助托尼·斯塔克控制各种系统并自动完成任务，构建一个像这样的超级AI助手一直是人类长期以来的梦想。我们把这一类实体称为OS Agents，它们能够通过操作系统（OS）提供的环境和接口（如图形用户界面，GUI）在诸如电脑或者手机等计算设备上自动化的完成各类任务。OS Agents有巨大的潜力改善全球数十亿用户的生活，想象一个世界：在线购物、预订差旅等日常活动都可以由这些智能体无缝完成，这将大幅提高人们的生活效率和生产力。过去，诸如Siri、Cortana 和Google Assistant 等AI助手，已经展示了这一潜力。然而，由于模型能力在过去较为有限，导致这些产品只能完成有限的任务。幸运的是，随着多模态大语言模型的不断发展，如Gemini 、GPT 、Grok 、Yi 和Claude 系列模型（排名根据2024年12月22日更新的 Chatbot Arena LLM Leaderboa