AI改变工作的新起点：computer use-优快云博客

两天前Claude发布了能让AI模仿人操作电脑的computer use可能会成为一个很重要的里程碑节点。这个发布估计会点燃对AI辅助操作电脑的研究，之前也有，但没燃。

迄今为止AI还没有对大多数人的工作带来很多改变，但Claude computer use这条路走下去，对大众的工作将带来很多影响，因为AI将能够像人一样操作电脑，完成很多任务。

这项技术才刚开始，OSWorld测试成功率才15%，还处于完全不可用的状态。但编程的SWE-bench也能在1年之间从不到5%提升到50%，OSWorld在1年后提升到50%应该也问题不大。虽然50%的可用性也不理想，你要是请个秘书就这个水平你肯定受不了。但50%只是一个平均数，有些case和step已经很好，有些case和step很不好。上层应用怎么做到让用户顺利的用上那些好的，而不担心那些不好的。

Claude的computer use为了保证安全，建议用VM或container，但这不是普通人玩得转的，更会导致AI使用的办公环境和用户不同并带来很多障碍（比如登陆）。什么是更好的做法？我认为要分两个阶段。

L2阶段：当前及近期。最好直接用用户的环境，仔细让用户确认。这样在指令执行过程中用户不太能干很多别的活，否则相互干扰。但在AI很不成熟的阶段是有必要的。这个阶段AI的能力通过白名单方式管理，也就是白名单之外的操作都必须经过用户确认。

L3阶段：中期。让AI有一个相对独立的环境，比如对于web app，可以在系统的另一个桌面开个浏览器，这样AI和用户能够更加并行（原生app有点难搞，可以用L2方式、API方式等多种手段）。这个阶段AI的能力通过黑名单的方式管理，也就是黑名单之外的操作都不需要用户确认。

L4、L5？还不知道能不能到L4呢，再说。

有网友认为Claude computer use这样的方式不好，更好的做法是调API。我认为，综合而言，computer use是最好的方式，更是最容易大规模落地的方式。因为这样的方式能最好地利用大量存量软件的设计成果。不仅是因为当前大量软件功能没有API，还因为：

1、GUI是对软件交互的约束和对工作流的体现，API文档缺失这些信息，也很不容易表达。调API有更高的自由度，但过高的自由度也带来严重的不可控；2、普通用户不能理解API，基于GUI才能实现人机协同。

但computer use这样的方式也很不完美，一种更好的方式我认为是读写分离，即通过API去完成读操作，通过GUI去完成写操作。举个简单的例子，搜商品当然不一定要傻傻的打开Amazon，直接调API就可以了，但下单最好打开下单页让用户确认。

软件面向人优化，出现了UX；

网站面向搜索引擎优化，出现了SEO；

将来软件面向Claude computer use这样的AI优化，需要AIX。

什么叫AIX？目前很难定义，有的网友表示现在已经为AI单独准备API文档，甚至在编程时要单独关注AI的需求，甚至提出了面向LLM编程（LOP，LLM-Oriented Programming，见https://www.linkedin.com/posts/helincao_ive-discussed-a-new-programming-paradigm-activity-7255334613298905088-SeG9?utm_source=share&utm_medium=member_desktop）。这也算AIX的一种吧。

最后借用王树义老师的话总结：毛病很多，但未来已来！

【汪源：杭州久痕科技创始人，前网易副总裁、杭州研究院执行院长、网易数帆总经理。久痕科技：让知识工作更轻松高效。】