来源 | 张无常
无常按:
这是一篇5万字长文,是一个3小时访谈的文字实录(播客地址见文末),大概也是全网对 Coding Agent 和 OpenAI o3 最深度也最全面的讨论——犹豫了很久是不是太标题党了,但在我的视野之内,确实没发现超过这一篇的内容了。
为什么 Coding Agent 和 o3 模型重要?
先说 o3。从年前至今,应该所有人都被 DeepSeek R1 刷屏了。但实际上,对于 AI 从业者而言,另一件事的影响不在DeepSeek 之下, 那就是 OpenAI 在春节期间紧急上线的 o3 mini 和基于 o3 微调的 Deep Research——只不过 200 美元的门槛让这种影响明显滞后了。今天这篇文章会讨论为什么 o3 如此重要。
而 Coding Agent 大概是去年 AI 应用进展最快、引发最多讨论的方向了,从上半年 GitHub Copilot 一家独大到下半年Cursor 异军突起,引发 Replit、Bolt.new、Windsurf 群雄争霸,直到 Devin 以 500 美金的天价和实打实的效果技惊四座……
这篇访谈难得集结了国内和硅谷 Coding Agent 领域一线的创业者、大模型研究员以及投资人,深入讨论了 Coding Agent 发展与现状、产品设计思考、用户实际反馈、带来的社会变革,以及对 o3 能力、实现难点和未来挑战的思考。
没有套话,全是真知灼见。读的过程中忍不住加了很多评论,也欢迎你和我讨论(wx: hayeszhang13),底部有微信群。
花了我不少时间整理,也会花费你不少时间阅读,但绝对值得。
核心观点
AI 总结还是不太行(即便是 o3 mini),以下 2000 字核心观点主要为人工总结,AI 辅助。当然,强烈建议抽时间读完全文。
Coding Agent 的历史、现在与未来
AI 编程工具的四阶段进化
-
ChatGPT & Claude: 初代代码生成工具,只能根据 prompt 输出代码,无执行调试。
-
GitHub Copilot: 让 AI 理解全库环境,提升预测和补全准确率。
-
Cursor & Replit Agent: 加强逻辑理解,支持文件和命令行操作,标志着“AI 编程 3.0”时代。
-
Devin: 真正实现自主任务执行,具备规划、执行和调试能力,堪称“自动化程序员”,开创全新范式。
Coding Agent 的前沿能力与未来潜力
-
开源项目最活跃贡献者: 在 OpenHands(OpenDevin)项目中,Agent 的贡献已超越所有人类工程师。
-
自我迭代预兆: 通义千问团队用 Agent 清洗代码数据,展示了 AI 面对陌生数据能自主清洗。未来若能自主判断数据价值、生成训练代码并自评,软件开发与模型迭代将彻底颠覆——未来模型的进步可能将由模型自己推动。
从 Coding Agent 到通用 Agent 的跃迁
-
全栈进化: AI 代理正由单一代码编写转向需求分析、架构设计、测试与部署全流程。
-
跨界交互: 未来 AI 将能像人一样操控图形界面,摆脱 API 限制。
-
自我进化闭环: AI 有望自主优化代码、进行训练,终实现类似 AGI 的自我迭代。
Agent 的设计与交互
Replit Agent 产品迭代发现的用户诉求分化
-
用户两大需求: 一是从零到一的全自动任务,二是轻量级的代码编辑(pull request)。
-
分流策略: Devin 聚焦前者,而 Replit 聚焦后者——大多数用户更期待 Agent 合作式介入、及时反馈与方向把控。
OpenHands(OpenDevin)的 Agent 设计策略
-
基于「React Code Act」这种方法,本质上是依赖LLM自己的能力,通过历史的action的observation去生成新的action,决定下一步该做什么。
-
这种设计的好处是能最大程度享受到model更新带来的improvement。相比之下,如果用prompting heavy API的方法,可能享受不到直接用LLM生成action带来的这些提升。
-
如果在 Agent 层面做得够轻量,就能更好地享受到模型本身的提升。
Agent 的 Planner :复杂设计真的必要吗?
-
OpenDevin 开源社区进行了非常多的讨论和尝试。实现了4-5种不同的agent framework去做planning,但有趣的是没有一个能够超过模型本身的表现。
-
结论是:planning能力某种程度上可以作为模型本身的一个能力存在,不一定需要external planning。
-
与其工程化一个 Planner,还不如更多信任模型本身的“直觉”规划,省去不必要的工程麻烦。
关于 Agent 的交互
-
有了AI特别是o1这样的能力后,我们需要思考是否应该把很长的推理过程看作一个bug,还是基于它的特点来设计新的交互方式?
-
在model层面和safety层面都需要重视的一个问题是,要确保Agent执行的这些操作是经过一定程度上的人类批准的。但具体来说,有 2 种批准方式:1)高层授权,比如在某个范围内你做什么都可以;2)严格控制,像Cursor的Agent mode那样每一个action都需要人类去approve或reject——如何这两个极端之间找到一个好的balance,是接下来比较重要的一件事情。
Agent带来的社会变革
Coding Agent 进化带来的社会变革
-
无限实习生: 低成本、不断进化的 AI Agent,正以低于正式员工的价格提供超越传统产能。
-
管理者新角色:
-
每个人都必须学会如何当老板——指挥、管理、训练 AI,将从单纯的执行者转变为CTO、CEO。
-
作为管理者,需要给Agent明确的、可量化的目标,正确地做prompting、布置工作。
-
未来对人来说,真正重要的工作是提出好的问题、知道自己想要什么,需要考虑的是更具创造性的、更偏向规划的事情。而具体的执行部分则交给Agent或AI来负责。
-
-
Agent 设计变化:会越来越像一个给公司CEO设计的产品,而不是给程序员设计的产品。
-
当然——随着 o3 带来的模型推理能力的进化——情况可能反过来,实际上可能是Agent在教我们如何做事,最终可能是Agent自己识别出还有什么是它做不了的,然后再来给我们分配任务。AI 可能会主导整个planning,人类反而在给它打工。
异步 Agent 引发的工作方式革命
-
Devin 等代理让任务从「人机交互编程」转为「AI 主导的全流程自动化」:AI 如同不断进化的实习生,任务下达后人只需异步审核。
-
这预示着「工作规模扩展定律(Scaling Law of Work)」:未来,简单购买算力或 AI 工具即可承接复杂认知任务。
Agent 未来的提升方向
Agent 未来从junior engineer晋升到senior engineer 需要提升的能力:
-
信息获取能力要与人类处于同等水平。我们人类能够访问到的所有信息渠道,这个Agent就必须能访问到
-
model本身的能力也很重要,特别是planning能力、从错误中恢复的能力
-
要有积极主动的特质,需要在恰当的时机主动询问
-
确保未经授权操作绝不执行
-
通过feedback loop不断提升自主性和scale能力
OpenAI o3 模型
-
o系列模型在解决数学和编程问题时主要展现了两个核心能力
-
第一个是之前大模型虽然具备但没有做得那么强大的逻辑推理能力。这个模型能够基于明确的问题描述构建出强大的思维过程,把复杂的需求拆解成一个个逻辑单元。在每个逻辑单元中,它都具备计算和编程能力,能够给出高准确率的答案。
-
第二个是强大的方法总结和思维归纳能力,它能够从训练数据中总结出复杂的思维模式,知道什么时候该反思,什么时候该跳出当前思维继续推进。这种思维模式是它面对未见过的难题时泛化能力的保障。
-
-
局限性
-
但在真实世界中,我们面对的环境和需求往往难以被定义或形式化,模型除了需要推理能力,还需要具备对这个世界的认知。
-
o系列模型主要在定义明确的场景下验证了核心技术,对未来真实世界任务的泛化还有一些路要走。
-
我们需要加强模型在模糊环境中的适应能力,思考如何把它在代码或数学上展现出的思维方式扩展到更多场景,同时确保不产生其他影响。
-
实现这个目标最难的是如何在开放环境下定义反馈,因为只要有廉价的持续的反馈,模型就可以不断提升自己。
-
其他金句
-
一旦技术统一,AI 就能大展拳脚。
-
如果一个工作能被总结成人类坐在电脑前通过和电脑交互能完成的,那基本上都能被Agent化。
-
Agent时代的新变现模式:不再是传统 SaaS 的卖工具,而是卖生产力
-
创业并不是一定要训练自己的模型,而是要和模型形成一种更紧密的共生关系。核心竞争力在于如何把模型用好,以及对用户实际工作流程的深刻理解。
-
要保持乐观和敬畏:虽然我们现在用的是能获得的最好模型,但如果明天能拿到新版本,情况可能就完全不同了。
嘉宾介绍
-
Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。
-
李珎, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.
-
Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder & Chief AI Officer, UIUC PhD.
-
Binyuan Hui, 阿里巴巴通义实验室科学家
-
Cohost Peak, 真格基金EIR,前猛犸浏览器创始人
-
OnBoard! 主持 Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学
正文
注:本期录制时间为2024年12月。
00:00:15 - 00:01:28
Monica:
大家好,欢迎来到OnBoard!,我是Monica。转眼就是二零二四年的最后几天了,今天也是OnBoard!二零二四年压轴之作,必须是绝对深度绝对精彩的一期。
如果你关注AI,那一定知道过去一个多月最火的话题之一就是Coding Agent。不到两个月的时间,Coding Agent的产品可谓是完成了两级跳式的升级。从超级编程助手Cursor,到Replit Agent,windsurf代表的可以简单的完整开发应用的Coding Agent,再到千呼万唤始出来的Devin的发布,向世人展示出真正自主的Agent可以独立完成各种多步骤复杂任务的惊人能力。这真的打开了我们对于Coding Agent以及Agent本身全新的想象空间。
更巧的是,就在我们录制这期节目的凌晨,OpenAI在十二月发布活动的最后一天,发布了让世人震惊的模型。OpenAI o3,它在多个编程和数学最具挑战性的benchmark上都超越了绝大部分人类,可以说让我们对于大语言模型能力天花板的预期再次被刷新了。
00:01:28 - 00:02:44
要展望 AI 的 2025 年的发展,Coding Agent 以及以强化学习为新范式的 o3 系列无疑是最核心的问题。为此,我们邀请了国内和硅谷 Coding Agent 领域一线的创业者、大模型研究员以及投资人的重磅阵容,一起跟大家探讨个痛快。
让我介绍今天的重磅嘉宾:首先是 Replit Agent 的核心成员李珎,他们在今年九月首次推出的 Replit Agent 引领了 windsurf, bolt等一系列 Coding Agent 产品的领头羊,也是第一次展示除了这种产品形态。我们还邀请到了开源版 Devin 演化而来的商业公司 Allhands AI 的 CTO Xingyao。在底层模型方面,我们请来了最具国际声誉的中国开源大模型——阿里巴巴通义千问的 coding 负责人Bingyuan,分享他对模型 coding 能力未来的见解。此外,真格基金管理合伙人戴雨森将从投资人的宏观视角,为我们解读 Coding Agent 对软件和组织新范式的定义。最后,我们还邀请了一位特别嘉宾,真格基金的 EIR、十七岁就开始在 AI 领域创业的 Peak。
00:02:44 - 00:03:38
这次讨论长达三个多小时,在全网都很少见。尤其难得的是,我们邀请到了来自硅谷亲手打造coding asia的创业者们,他们分享了产品设计思考、用户实际反馈,以及对o3实现难点和未来挑战的深入拆解。更有趣的是,我们还讨论了一个开源项目中Agent成为最活跃贡献者这一现象背后的深远意义。
为了帮助大家更好地理解本期内容,我强烈推荐大家复习两期重要的往期节目:第62期我们与Google DeepMind研究员关于o1的讨论,以及第53期在今年上半年我们对Coding Agent的首次探讨。值得一提的是,第53期的嘉宾姚顺雨,作为SWE-bench的提出人,现已加入OpenAI负责AI Agent方向的研究。
未来已来,不论你是否感知到,这三个小时都绝对值得你投入时间。
00:04:04 - 00:04:28
好,请几位嘉宾跟大家介绍一下你自己。同时也可以简单介绍一下你是怎么开始进入到AI这个领域的,以及你现在的工作与Coding Agent有什么样的关系。老规矩,我们有个fun fact,就是最近大家使用任意一款Coding Agent产品时,做过的让你自己觉得最惊喜或者有趣的一个任务,可以跟大家分享一下。那我们要不从雨森开始。
00:04:28 - 00:05:50
戴雨森:
大家好,我是真格的戴雨森,主要在看AI方面的投资。我一直在探索用Coding Agent做一些有趣的事情。作为投资人,我们还没有用Agent去实际开发软件或网站,但在Devin发布后第二天,我就付费充值了Devin,投入了五百美金开始使用。我发现它不仅可以写代码,还具备很强的能力去处理投资圈的数据收集和爬虫类案头工作。
我自己经过一些尝试后,觉得非常惊艳,就推荐给真格基金的同事们也买一个来试用。没想到同事们一天时间就把五百美金的额度用完了,大家都做了很多有趣的尝试。看了后台使用情况后,我意识到不只是程序员面临职业危机,我们投资人也会面临很多挑战。今天很开心能和大家一起探讨这个领域,因为我们看到了很多新的机会。
Monica:
大家可以感受到我们这个投资机构是以使用者的身份走在前沿。当时看到雨森展示爬虫的整个过程,以及中间的推理过程,觉得非常impressive,已经超出了我们原来认为Coding Agent只是程序员编程辅助的定义。一会也请雨森从PM或非程序员的视角,分享为什么会让我们觉得如此惊艳。
00:05:50 - 00:07:13
让我们请下一位返场嘉宾李珎来分享。
李珎:
我是李珎,在Replit Agent担任AI Agent engineer。我是最早的Replit Agent创作者之一,最开始这个项目只有我一个人在做,后来逐渐发展成为公司的核心项目。在九月份之后也是高速成长的过程中,我们可能是市面上第一个能公开使用的Agent。
最近我在用Agent帮助国内一个电影导演团队,将他们的需求通过Replit Agent转化为产品落地。比如电影剧本的拆解、翻译等工作,我会从他们那里总结需求,然后用Replit做成产品供他们使用。实际效果非常好,已经获得了较多媒体报道。
这项技术让电影从业者也能开发软件了。以前对于导演来说,比如需要把剧本拆解成特定形式让其他组员执行,这些工作都只能手工完成,因为软件开发的门槛太高。但现在有了Agent后,这个门槛突然变得非常低,他们就可以自己去迭代开发了。这是最大的不同之处。
00:07:13 - 00:07:49
Monica:
那下一位我们就请Xingyao来给大家介绍一下。
Xingyao:
大家好,我是Xingyao,我现在是Allhands AI的联合创始人,同时担任Chief AI Officer。在加入AI领域之前,我在UIUC攻读PhD。在post-training期间,我主要从事LLM和Agent相关的工作。年初我们开始了一个开源项目,之后与冰源、晋阳等人一起发起了一个开源计划。我们一直从年初奋斗到年末,期间我们以Devin为基础,成立了Allhands AI。
00:07:49 - 00:10:10
最近这段时间,AI方面最令我印象深刻的是在一个月前,我们发现OpenHands(OpenDevin) Agent已经能在日常软件项目开发中发挥像人类工程师一样的实质性作用。我给大家分享一个数据,在过去一个月,它已经成为了OpenHands(OpenDevin)项目代码库中最大的贡献者,贡献量超过了所有人类工程师。从commit记录可以看到,Agent每天都在代码库的各个角落活跃,修复从简单到复杂的各类bug。看到Agent在GitHub上实际工作的样子,让我们真切感受到这项技术真正到来了,这是令我最难忘的一点。
Monica:
这个确实非常令人印象深刻,我们可以深入聊聊这是如何实现的。这个跃迁是因为你们做了什么样的改变,让它突然有了这样的能力提升?
Xingyao:
在十一月中旬,我们成为了第一个在SWE-bench上超过50%的Agent。自从突破这个门槛后,我们明显感受到Agent的质量有了飞跃。我们在日常工作中更频繁地使用它,逐渐发现Agent能做很多原本没想到它能做的事情。以前我们可能需要考虑是否有人力和精力去做一件事,但现在我们只需要负责提出想法,然后把任务交给Agent。比如有一天团队遇到一个前端问题,我们想要添加一个checkmark,demo运行后创建issue直接assign给Agent,它就完成了这个功能。最令人兴奋的是,Agent在完成我们的需求时,表现往往超出预期,以至于我们现在可以直接采用它的代码,不需要太多人工干预。
Monica:
从五六月份公司成立到现在只有半年时间,当时我们还讨论Devin是不是只是一个噱头,现在我们可以看到Agent的超出预期的贡献,确实AI这个领域的变化确实非常快。
00:10:10 - 00:10:14
好,那接下来有请Bingyuan来聊一聊。
Bingyuan:
大家好,我是Bingyuan。
00:10:14 - 00:11:18
我目前在通义主要负责coding这个方向。我们最近开源的coder项目受到了大家的关注和喜爱,收到了很多社区非常好的反馈。
我可以跟大家分享一个比较好玩的场景,我最近在尝试让AI以Agent的形式去清洗代码数据。传统方式下,我需要观察大量代码,编写处理脚本,然后不断迭代来获得好的数据。但现在AI已经可以在面对陌生数据时自主进行清洗。我希望未来如果模型足够强大,它的能力可以从数据清洗扩展到自主判别数据价值,甚至可以编写训练代码来训练更强大的模型,并进行自我评估。
如果AI架构能够突破,不仅软件开发流程会发生变化,模型迭代的流程也会随之改变。这是我最近观察到的一个很有意思的趋势。特别是看到昨天o3的发布,我感觉这些变化可能会比我们预想的更早到来。未来模型的进步,可能真的要靠模型自己去迭代。
00:11:18 - 00:12:36
Monica:
能给大家简单介绍一下吗?因为之前提到千问是做基础模型的,你们也有自己的foundation model和coding model。刚才提到的这个coder具体是一个什么样的产品?
Bingyuan:
我们希望先在coding这个方向单独进行验证,包括数据和技术的探索。我们在通用模型基础上,进行了大量的prompt engineering、instruction tuning,甚至是RLHF,想看看在coding这个方向上能走多远。
所以第一天在做project的时候,我们的目标就是要在coding方向做到真正的顶尖水平。因为开源模型还在不断迭代过程中,一开始很难平衡各项能力,所以我们让不同的人去探索不同方向,在某一个方向做到顶尖,最终merge到一个非常strong的通用模型里面。这是我们团队一直以来的技术迭代逻辑。
所以今天的coder其实是在通义千问模型(我们称为Qwen)的基础上,产生了Qwen Coder。这样的一个coder可以用于下游的无论是Agent任务,或是一些辅助任务,我觉得这都是非常exciting的事情。
00:12:36 - 00:15:02
Monica:
好的,非常感谢几位嘉宾的介绍。Peak也是我们今天特邀的co-host,也请他跟大家介绍一下。
Peak:
我是Peak,是真格基金的EIR。此前一直在产业界做NLP,主要是与搜索和语言模型相关。最近我对Agent特别感兴趣,这让我想到软件工程中的自举概念,就像编译器能自己编译自己。我最近在试用OpenDevin,想了解它的架构,特别是controller之间的关系。我没有直接读代码,而是让OpenHands(OpenDevin)帮我自己去讲解,效果还不错。后来看到Xingyao提到OpenHands(OpenDevin)的contribution已经排到第一,我就让Devin尝试实现一个最简陋版本的自己(Devin)。虽然最终实现的版本不能完全work,但已经很impressive了。
对于今天的讨论,我特别关注几个方面。在模型层面,我们看到Reasoning模型在突飞猛进,同时coder模型也达到了可用状态。在Devin这样的产品中,planning部分对微调模型的要求更高,而具体执行则需要强大的coder能力。我很关注这两类模型未来是独立发展还是会在某个节点融合。
对于Agent frameworks,我想和Xingyao讨论一个重要问题:如何更好地发挥模型能力。因为相同模型在不同框架下表现差异很大,而框架与模型能力的关系也并非简单的线性关系。
另外,我注意到很多朋友,包括雨森,通过现在的Agent产品完成了人生第一个项目(网站或者产品),但由于没有工程能力,往往在deployment阶段遇到困难。软件的生命周期很长,包括maintain、更改以及内容管理等,这些都是需要Agent类产品思考的问题。
00:15:02 - 00:15:38
Monica:
感谢 Peak 的分享。接下来,我们会为还没有听过或不太熟悉这些产品的听众介绍几个我们经常提到的产品。同时,我们也会邀请几位一线的 builder 深入分享他们整体的构造思路、思考和演进过程。
雨森,作为一直很深入地跟进 Coding Agent 以及更广泛 AI 领域的投资人,能否请你从这个视角来分享一下你所观察到的 Coding Agent产品演进,以及为什么你这么重视这个领域的创业机会和未来可能性?请你简单梳理一下过去的发展,并分享你的思考。
00:15:39 - 00:16:33
戴雨森:
编程一直是AI领域中非常重要的一件事情,因为通过写代码,AI可以控制很多外部工具。从ChatGPT出现到现在这两年时间里,AI编程已经经历了四个主要的进化。
一开始ChatGPT出现时,我们给AI一个指示,它就能把代码写好直接贴在聊天框里,这确实是人工智能的一个飞跃,因为它代码写得确实很好。但第一代AI并不知道我们为什么要写这个代码,完全是根据我们给的prompt来写,所以我们往往需要在prompt里把很多上下文都写进去。而且我们需要手动把代码粘贴回IDE里面再去运行。当代码出现错误问题时,再抛给AI,这样AI就像个瞎子,完全不知道发生了什么,像一个奴隶一样在写代码。这就是ChatGPT和Claude刚出来时的情况,包括GitHub Copilot也是如此。
00:16:33 - 00:17:49
GitHub Copilot的出现是AI写代码能力的第一次飞跃,它让AI能够读取整个code base作为上下文,从而理解我们为什么要写这段代码。不过在第一代产品中,用户还需要手动把代码粘贴回IDE进行调试,这种模式可以说是"我问你答"式的人机合作。
Cursor提出了一个重要概念:next action prediction。具体来说,就是当你写下当前这行代码时,AI能推测你接下来要写什么代码。这体现了模型对代码的深度理解,以及对程序员任务更强的规划和拆解能力。随着GPT-3.5等模型的进步,系统能生成更长的代码块,更准确地预测用户意图。
后来,Cursor还加入了文件操作能力,可以直接在本地创建和修改文件,比如处理需要下载的文件、需要创建的文件等。同时还引入了命令行操作建议。这标志着我们进入了AI编程3.0阶段:AI能自动写代码、创建文件并执行调试,如果代码有问题还能自己debug。这让我们从"我问你答"进化到"我问你写",大大加快了编程自动化的进程。
00:17:49 - 00:19:03
我在一两个月前第一次使用Windsurf时感到非常激动,因为它能在一台全新的、未安装任何编程环境的系统上,仅通过一两步简单指令就实现demo的自动化运行。不过这个过程仍然需要我持续关注。而Devin的出现开创了新的范式,它真的很像一个真人。我把任务交给它后就可以去做其他事情,它能通过planner进行完整的任务规划,持续自主编程和调试,还能创建文件,通过虚拟机访问互联网获取所需信息。
最重要的是,我可以随时打断和调整它的工作进程。这与之前的ChatGPT和GitHub Copilot有很大不同,因为使用这些工具时,一旦给出prompt就必须等待整个流程完成,中途很难添加额外指示。从管理者的角度看,这就像给员工分配任务后可以不断调整要求。另外,Devin还与Slack做了深度集成,除了代码库外,还可以从Slack中获取任务背景的上下文信息,这对于准确完成工作非常重要。
00:19:03 - 00:20:25
所以我在看到Devin之后,我发现它不只是可以编程。它已经能完成很多通过一个人坐在电脑前面、通过互联网能够解决的事情。在这种异步的Agent产品出现之后,我觉得产生了一个很重要的概念:当我们能够简单地花钱或者说花算力就能买到工作成果时,这就诞生了某种工作的scaling law。
我觉得人类使用的工具可以分为两类。第一类像电钻或ChatGPT这样的,你得持续投入注意力,有点像是你踢一脚开动一下,必须持续对话,一旦把注意力挪开就不能继续工作了。另一类就是所谓的自动化,比如我布置个爬虫,写好后它自己去爬,但它只能完成重复性工作,没有自己去调整决策、反思的能力。
而我们说的Autonomous Agent,也就是全自动代理,既不需要我投入太多注意力,又可以完成非重复性的、需要创造性思考的工作。我觉得Devin是第一个例子,这可能是人类历史上出现的第三种工具。它不需要一直要求你的注意力就可以自己完成工作,这种情况下我们就可以把工作更多地scale up起来。我可以让Devin同学帮我跑好几个任务,甚至几十上百个任务,我甚至可以让Agent去指挥另外的Agent去执行。所以我觉得这里面提出了很多新的可能,这真的非常让人激动。
00:20:25 - 00:22:03
Monica:
我很好奇,你提到的工作scaling law这个感受是在使用AI之后产生的吗?与之前的产品相比,你认为最核心的区别是什么?
戴雨森:
我认为核心区别在于异步工作方式。比如在Windsurf环境下让AI使用我的电脑时,它可以执行命令、创建和修改文件,但这时我就干不了其他事情,必须看着它操作。虽然我可以切断上网,但过一会还是得查看它有没有完成,因为完成后我需要进行下一步,这持续需要我的注意力。
Devin的planner是一个非常重要的环节,它可以通过伪代码形式生成复杂流程。它会给自己生成to do list并持续执行,这个过程真正能解放我的注意力和生产力。第二,在Devin里面,它是在云端自己开了一个虚拟机,去完成需要的互联网访问、调试和验证过程,不用调用我的机器。之前用过RPA等试图实现自动化的工具,在工具工作时都不敢动电脑,怕一不小心影响到它的运行。
这感觉就像我给实习生配了台电脑,我只需要偶尔去看看他工作得怎么样。Devin还有个很好的设计,比如它需要登录LinkedIn这样的账号时,可以让我来输入密码。这就像实习生找我要账号,让我在他电脑上输入密码,然后他就继续工作了,非常贴近实际工作场景。
00:22:03 - 00:22:48
Monica:
是的,虽然这个产品(Devin)最初是以coding功能为人所知,但从使用体验来看,它的功能范畴远远超出了coding。刚才雨森给大家介绍了Coding Agent的发展历程。在讨论Devin之前,我认为真正意义上的Coding Agent应该是Replit Agent。
虽然今天很