关于Claude3.5-Sonnet引以为傲的功能，在半年前就被某国产平台无情碾压的那档事！

KuaFuAI

已于 2024-06-26 19:49:58 修改

阅读量2.1k

点赞数 28

文章标签：人工智能 Claude3.5 Claude3.5Sonnet AIGC 国产Devin CodeFlying 国产文生软件平台

于 2024-06-26 18:42:38 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_47201270/article/details/139991349

版权

前言：

Anthropic声称其每隔几个月就会对Claude发布一次重大版本的更新。距离今年3月份Claude3发布，已经又过去了3个多月的时间。果不其然，6月21日Anthropic 在X上正式官宣发布全新大模型 Claude3.5 Sonnet，号称它能够碾压GPT4o，是迄今为止最智能的模型。毫无疑问，经过大家几天的测试和体验，它的模型能力确确实实称得上是头部大模型的Top1。但是今天我们要讲的是Claude3.5 Sonnet吹嘘的其在应用程序开发上的能力，实际上并没有那么厉害。关于这个能力具体是什么，后文将会给大家揭晓。但我想表达的是“这个能力”其实早在半年前国内就已经有平台实现了，甚至这个平台的能力甩开了Claude3.5 Sonnet好几条街。

关于Claude3.5 Sonnet这里还是给大家简单的介绍一下，

（ps:给后面惊艳到你的国产平台铺垫一下~）

首先Claude3.5 Sonnet是 Claude3.5系列中的第一个模型，与Claude3.0一样，3.5也有大杯、中杯小杯三个等级。

Claude3.5 Sonnet正是3.5系列中的中杯，但是不要小看了这个中杯，Claude3.5 Sonnet的能力已经超越了3.0的大杯。

所以这里咱可以浅浅期待一手，Claude3.5 Opus（大杯）的效果。据说在未来的几个月内Anthropic就会陆续发布小杯，和大杯这两个版本。

如上图这是Anthropic官方发布的对Claude3.5 Sonnet基准测试结果。

从结果上来看，Claude3.5 Sonnet 在研究生水平推理（GPQA）、本科水平知识（MMLU）和编码能力（HumanEval）三个主流基准测试中，打破了行业的记录，全面领先GPT-4o。

另外，与前代产品的提升就更不用多说了，在内部测试中Claude3.5 Sonnet解决了 64% 的错误代码问题，而 Claude 3 Opus 仅解决了 38% 的问题。

Model_Card_Claude_3_Addendum.pdf (anthropic.com)

这是Claude3.5与3的内部代码能力评估测试，感兴趣的小伙伴可以去看一下。

那接下来就是重点要讲的内容了，Anthropic在Claude3.5更新的官方公告中，特别强调了Claude 3.5 Sonnet 可以独立编写、编辑和执行代码（划重点），并具有复杂的推理和故障排除功能。

在这次更新中Claude3.5推出了一个新的功能Artifacts。简单来说就是一个动态的空间，用户在Claude3.5 Sonnet上的所有交互内容都可以在窗口上体现出来。也就是说现在可以在Claude 3.5 Sonnet上直接生成应用程序。

Claude3.5

视频中演示的应用程序，就是通过Claude3 Sonnet自动化生成的。

这个应用是一个可视化的办公桌显示屏调节的应用，看视频中的演示效果还是比较不错的。

而这样的效果，其实国内有平台在半年前就已经做到了，甚至效果比Claude3.5 Sonnet还要炸裂。

下面我们就用同一个应用程序的开发需求，来对比Claude3.5 Sonnet和国内的这个平台。

目前在Sonnet上还没有集成Python解释器，所以用React语言来表达我们的需求

需求描述：“你能用React语言，帮我开发一个MIS 项目信息管理系统吗？让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有：1. 项目信息表关键词：项目名称项目描述项目经理项目状态开始日期结束日期 2. 任务管理表关键词：任务名称任务描述负责人优先级任务状态实际开始日期实际结束日期依赖任务 3. 进度跟踪表关键词：任务名称进度百分比完成情况更新日期更新人 4. 成本管理表关键词：成本项名称费用类型预计费用实际费用 5. 风险管理表关键词：风险名称风险描述风险等级应对措施责任人”

在提出了这个应用开发的需求之后，Sonnet就直接打开了Artifacts窗口，开始了编写代码

代码编写好之后， Sonnet就会自动执行刚才生成的代码。但是这里可以看到因为缺少组件，没有办法进行渲染，所以程序运行失败了。

后面我又换了一种方式来重新表达了我的需求

需求描述：“你可以帮我创建一个Html版本的吗？要可以运行的，我能用鼠标进行点击操作。”

提出新的需求之后，Sonnet还是会先调用Artifacts功能，然后编写代码，自动运行程序。

这里可以看到将React语言调整为html语言之后程序就开发成功了。

sonnet演示

但是在实际使用的过程中发现，部分icon点击之后没有触发效果，无法添加项目信息，且一般MIS中的基本功能也没有具备。

似乎不像是一个完整的程序，更像是一个模版？

可能是我的需求表达的不够清晰的原因，但总的来说Sonnet还是把这个应用做出来了。

那接下来就试一下在国产平台上用同样的需求看看效果如何？

需求描述：“你可以帮我开发一个MIS 项目信息管理系统吗？让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有：1. 项目信息表关键词：项目名称项目描述项目经理项目状态开始日期结束日期 2. 任务管理表关键词：任务名称任务描述负责人优先级任务状态实际开始日期实际结束日期依赖任务 3. 进度跟踪表关键词：任务名称进度百分比完成情况更新日期更新人 4. 成本管理表关键词：成本项名称费用类型预计费用实际费用 5. 风险管理表关键词：风险名称风险描述风险等级应对措施责任人。”