两天前Claude发布了能让AI模仿人操作电脑的computer use可能会成为一个很重要的里程碑节点。这个发布估计会点燃对AI辅助操作电脑的研究,之前也有,但没燃。
迄今为止AI还没有对大多数人的工作带来很多改变,但Claude computer use这条路走下去,对大众的工作将带来很多影响,因为AI将能够像人一样操作电脑,完成很多任务。
这项技术才刚开始,OSWorld测试成功率才15%,还处于完全不可用的状态。但编程的SWE-bench也能在1年之间从不到5%提升到50%,OSWorld在1年后提升到50%应该也问题不大。虽然50%的可用性也不理想,你要是请个秘书就这个水平你肯定受不了。但50%只是一个平均数,有些case和step已经很好,有些case和step很不好。上层应用怎么做到让用户顺利的用上那些好的,而不担心那些不好的。
Claude的computer use为了保证安全,建议用VM或container,但这不是普通人玩得转的,更会导致AI使用的办公环境和用户不同并带来很多障碍(比如登陆)。什么是更好的做法?我认为要分两个阶段。
L2阶段:当前及近期。最好直接用用户的环境,仔细让用户确认。这样在指令执行过程中用户不太能干很多别的活,否则相互干扰。但在AI很不成熟的阶段是有必要的。这个阶段AI的能力通过白名单方式管理,也就是白名单之外的操作都必须经过用户确认。
L3阶段:中期。让AI有一个相对独立的环境,比如对于web app,可以在系统的另一个桌面开个浏览器,这样AI和用户能够更加并行(原生app有点难搞,可以用L2方式、API方式等多种手段)。这个阶段AI的能力通过黑名单的方式管理,也就是黑名单之外的操作都不需要用户确认。
L4、L5?还不知道能不能到L4呢,再说。
有网友认为Claude computer use这样的方式不好,更好的做法是调API。我认为,综合而言,computer use是最好的方式,更是最容易大规模落地的方式。因为这样的方式能最好地利用大量存量软件的设计成果。不仅是因为当前大量软件功能没有API,还因为:
1、GUI是对软件交互的约束和对工作流的体现,API文档缺失这些信息,也很不容易表达。调API有更高的自由度,但过高的自由度也带来严重的不可控;2、普通用户不能理解API,基于GUI才能实现人机协同。
但computer use这样的方式也很不完美,一种更好的方式我认为是读写分离,即通过API去完成读操作,通过GUI去完成写操作。举个简单的例子,搜商品当然不一定要傻傻的打开Amazon,直接调API就可以了,但下单最好打开下单页让用户确认。
软件面向人优化,出现了UX;
网站面向搜索引擎优化,出现了SEO;
将来软件面向Claude computer use这样的AI优化,需要AIX。
什么叫AIX?目前很难定义,有的网友表示现在已经为AI单独准备API文档,甚至在编程时要单独关注AI的需求,甚至提出了面向LLM编程(LOP,LLM-Oriented Programming,见https://www.linkedin.com/posts/helincao_ive-discussed-a-new-programming-paradigm-activity-7255334613298905088-SeG9?utm_source=share&utm_medium=member_desktop)。这也算AIX的一种吧。
最后借用王树义老师的话总结:毛病很多,但未来已来!
【汪源:杭州久痕科技创始人,前网易副总裁、杭州研究院执行院长、网易数帆总经理。久痕科技:让知识工作更轻松高效。】