论文解读 | 浙大&OPPO&零一万物等 | 综述OS Agents: MLLM智能体实现计算设备通用控制

非常高兴有机会分享我们的最新综述《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》。最近,由Anthropic推出的Computer Use利用基于多模态大模型的智能体操控电脑完成各种任务,让人们为之兴奋,也带动了学术界与工业界在OS Agents相关领域的研究与发展。浙江大学联合OPPO、零一万物等十个机构共同梳理了OS Agents的发展现状以及未来可能,并形成了一篇综述,旨在推动该领域的持续发展。如下是我们对论文的中文解读,更多细节欢迎访问我们的论文以及开源仓库!

论文题目:OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

论文链接:https://github.com/OS-Agent-Survey/OS-Agent-Survey

项目主页:https://os-agent-survey.github.io/

研究机构:浙江大学、复旦大学、OPPO、中国科学院大学、中国科学院自动化研究所、香港中文大学、清华大学、零一万物、香港理工大学、上海交通大学

1 引言

《钢铁侠》中的贾维斯(J.A.R.V.I.S.)能够帮助托尼·斯塔克控制各种系统并自动完成任务,构建一个像这样的超级AI助手一直是人类长期以来的梦想。我们把这一类实体称为OS Agents,它们能够通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI)在诸如电脑或者手机等计算设备上自动化的完成各类任务。OS Agents有巨大的潜力改善全球数十亿用户的生活,想象一个世界:在线购物、预订差旅等日常活动都可以由这些智能体无缝完成,这将大幅提高人们的生活效率和生产力。过去,诸如SiriCortanaGoogle Assistant 等AI助手,已经展示了这一潜力。然而,由于模型能力在过去较为有限,导致这些产品只能完成有限的任务。幸运的是,随着多模态大语言模型的不断发展,如GeminiGPTGrokYiClaude 系列模型(排名根据2024年12月22日更新的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值