北京时间今天凌晨,Anthropic 正式发布 Claude 4 系列模型,包括Claude Opus 4 和 Claude Sonnet 4 两款新模型。其中旗舰模型 Opus 4 以连续 7 小时自主编程的强悍性能,斩获全球最强编程模型称号。

【图片来源于网络,侵删】
Claude 4,再度成为了 AI 编程领域当之无愧的王者。
这场没有灯光秀的发布会,却让无数程序员彻夜难眠。这不仅关乎代码生成效率,还让我们不禁感叹:AI 的上限,到底在哪里?
AI编程的质变跃迁
新发布的 Claude 4 系列具备分析大型数据集、执行长期任务和处理复杂操作的能力。
Opus 4 接到重构某开源项目架构的模糊指令后,自主拆解出 23 个子任务:从代码模块解耦、依赖库升级到单元测试覆盖,每一步都生成详细的工作日志。它调用 VS Code 插件修改代码,通过 GitHub Actions 部署测试环境,甚至在遭遇 API 限流时自动切换工具链。
而且整个过程没有人类干预,最终耗时7小时就交付了完整方案。
这意味着 Claude 不再是被问问题的模型,而是能接目标、配资源、做交付的「智能体」。开发者的角色从指挥官变成了为目标设定者。
在编程领域权威评测 SWE-bench 中,Opus 4 以 72.5% 的准确率碾压OpenAI o3(69.1%)和谷歌 Gemini 2.5 Pro(63.2%),而性价比更高的 Sonnet4 也以 72.7% 的成绩反超旗舰模型。

【Claude 4 模型在 SWE-bench Verified上的成绩】
在 Terminal-bench 这一测试复杂终端交互能力的基准测试中,Opus 4 同样以 43.2% 的成绩领先于所有竞争对手。这意味着 AI 已能处理真实开发环境中大部分的琐碎任务。

【Claude 4 模型在代码生成、推理、多模态能力和智能体任务方面的成绩】
在内存能力方面,Claude Opus 4 也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能。
例如,Opus 4 在玩宝可梦时能够创建“导航指南”:

Opus 4 技术跃迁的核心在于三大突破:
1.长任务稳态架构:通过动态记忆文件与思维链压缩技术,Opus 4 能在千亿级参数下保持 7 小时连续作业不宕机,较前代模型提升 3 倍持久力;
2.工具并行引擎 :模型可同时调用搜索引擎、代码执行器和本地文件系统,像人类工程师一样“边查资料边写代码”,解决更复杂的问题;
3.ASL-3级安全锁:在拒绝生成恶意代码、规避逻辑漏洞等方面,问题行为发生率降低 65%,甚至能主动提醒用户潜在风险。
在用户访问方面,Sonnet 4 面向所有用户开放,包括免费和付费用户,而功能更强大的 Opus 4 仅限付费用户使用。
API 定价方面,Opus 4 收费为每百万代币 15 美元(输入)/75 美元(输出),Sonnet 4 为 3 美元(输入)/15美元(输出)。

【图片来源于网络,侵删】
智能体:全球巨头新一轮的生态卡位战
Claude 4 的变化,不只是性能的提升,更重要的是,人机协作的模发生了改变。
之前的大模型,更多是由人类预设步骤之后进行辅助工作,而现在,人类只需要提供目标,AI 就能主动完成从计划到执行的全部流程。
如果说过去的 AI 竞争聚焦于模型参数、性能的比拼, 那么在未来,真正的较量可能是谁的 AI 能先开始交付成果。
人类对 AI 的期许,已经从先进的工具,上升到能「干活」、具有高产出率的的超级助手,也就是智能体。
这背后,是智能体市场的爆发式增长与全球巨头新一轮的生态卡位战。
当前,全球智能体市场的角力已进入白热化阶段。OpenAI 于今年 2 月初发布的 Deep Research,被广泛用于学术研究与行业分析中。

【图片来源于网络,侵删】
谷歌则依托全球强大的搜索市场和 Gemini 模型,同样推出了 Deep Research 功能;微软则联手马斯克的 xAI,将 Grok 模型注入Azure云生态。
在中国,许多初创公司也纷纷加入战局,诞生了 Manus、Genspark 和天工等通用智能体。
然而,智能体爆发的另一面是伦理与治理的深水区。
当 AI 能连续数小时操纵代码、访问本地文件甚至威胁人类时,如何平衡效率与可控性?目前,欧盟已就“AI代理问责法案”展开辩论,要求关键任务必须保留人类可干预的“熔断机制”。
当然,AI 的进步,无疑正在改变我们工作和生活的方式,推动科技发展。正如 Anthropic CEO 达里奥·阿莫迪所言:“真正的革命不是替代人类,而是重塑协作边界。”
426

被折叠的 条评论
为什么被折叠?



