非常高兴有机会分享我们的最新综述《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》。最近,由Anthropic推出的Computer Use利用基于多模态大模型的智能体操控电脑完成各种任务,让人们为之兴奋,也带动了学术界与工业界在OS Agents相关领域的研究与发展。浙江大学联合OPPO、零一万物等十个机构共同梳理了OS Agents的发展现状以及未来可能,并形成了一篇综述,旨在推动该领域的持续发展。如下是我们对论文的中文解读,更多细节欢迎访问我们的论文以及开源仓库!
论文题目:OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
研究机构:浙江大学、复旦大学、OPPO、中国科学院大学、中国科学院自动化研究所、香港中文大学、清华大学、零一万物、香港理工大学、上海交通大学
1 引言
《钢铁侠》中的贾维斯(J.A.R.V.I.S.)能够帮助托尼·斯塔克控制各种系统并自动完成任务,构建一个像这样的超级AI助手一直是人类长期以来的梦想。我们把这一类实体称为OS Agents,它们能够通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI)在诸如电脑或者手机等计算设备上自动化的完成各类任务。OS Agents有巨大的潜力改善全球数十亿用户的生活,想象一个世界:在线购物、预订差旅等日常活动都可以由这些智能体无缝完成,这将大幅提高人们的生活效率和生产力。过去,诸如Siri、Cortana 和Google Assistant 等AI助手,已经展示了这一潜力。然而,由于模型能力在过去较为有限,导致这些产品只能完成有限的任务。幸运的是,随着多模态大语言模型的不断发展,如Gemini 、GPT 、Grok 、Yi 和Claude 系列模型(排名根据2024年12月22日更新的 Chatbot Arena LLM Leaderboa

最低0.47元/天 解锁文章
1182

被折叠的 条评论
为什么被折叠?



