GPT-4o一夜被赶超!OpenAI的最大竞争对手Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏

当地时间6月20日,OpenAI的最大竞争对手、AI初创企业Anthropic正式宣布推出其新一代AI大模型Claude 3.5 Sonnet。距离上次更新仅过去了三个月,Anthropic继续加大力度追赶OpenAI。

据Anthropic介绍,最新的Claude 3.5 Sonnet模型在性能上已超越了前一代Claude 3 Opus模型,速度提升了两倍,但成本仅为其五分之一。在深度理解、推理、编程等多个基准测试中,Claude 3.5 Sonnet的得分均超过了OpenAI的GPT-4o和谷歌的Gemini1.5 pro,位列行业前茅。

图片来源:Anthropic官网

尽管Claude 3.5 Sonnet在零样本MATH和MMLU评测中略微落后于GPT-4o,但在研究生级推理(GPQA)、本科级知识(MMLU)和编码能力(HumanEval)方面,毫无疑问地刷新了最先进水平(SOTA)——不仅大幅超越了前代的Claude 3 Opus,还全面胜过了谷歌的Gemini 1.5 Pro和Meta早期预览版的4000亿参数的Llama。

Claude 3.5 Sonnet在理解细微差别、幽默和复杂指令方面有显著的提升,并且能够用自然且贴近生活的语调撰写高质量内容。在运行速度上,它是Claude 3 Opus的两倍。这种性能提升,再加上高性价比,使得Claude 3.5 Sonnet非常适合处理复杂任务,如上下文敏感的客户支持和多步骤工作流程的协调。

在内部的智能体编码评估中,Claude 3.5 Sonnet解决了64%的问题,远超Claude 3 Opus的38%。结果显示,在指令和相关工具的支持下,Claude 3.5 Sonnet可以独立编写、编辑和执行代码,具备复杂的推理和故障排除能力。尤其是,它能够轻松处理代码翻译,因此在更新遗留应用程序和迁移代码库方面效果显著。

压力已经压力已经传递给传了OpenAI递:到GPTOpen-AI5:何时GPT问-世5?

何对于时Anth能够ropic问新世产品?

的发布对于,Anth外ropic界此次普发布遍的新持产品肯,定外态界度普。遍前表示Open肯定。

AI前对OpenAI齐对团队负责人Jan齐团队 Leike表示,他非常喜欢新的Sonnet模型。他提到,他会要求Son负责人Jan Leike表示,他非常net解释喜欢机器学习论文,虽然结果Son不一定完全正确net,但新比模型他自己。他粗提读到略,会读的要求Son结果net要好解释,机器速度学习也论文快得多。他。虽然认为不一定完全,正确自动,但对结果齐研究比距离他我们自己越来越粗略近阅读了的。

要Anthropic好,的产品经理Michael速度也快得 Gerstenhaber直接称自家新模型为“多。世界可以说,自动对齐研究距离上我们越来越最近了智能。

的Anth模型”。ropic的他产品表示经理,“Michael我们 Ger正sten处于haber则行业直接寒武称纪自己大公司的爆新发模型的为开端”。“更加世界先进的Claude 3.5 Haiku和最强版Claude 3.5上 Op最us智能会在今年的模型晚些时候”。他陆续推出。表示,“由我们正处此可见,各于这个行业大寒模型武厂纪大商之间爆的竞争发的愈发激烈开端”。更加。先进的Claude 3.5 Haiku和最强版Claude 3.5 Opus将在今年晚些时候陆续推出。由此可见,各大模型厂商之间的竞争已经彻底展开,竞争愈加激烈。

好奇的网友们在Claude 3.5 Sonnet发布的第一时间就进行了测评。大家发现,Sonnet的代码编写速度惊人。有网友仅通过一次对话,就用threejs+cannonjs创建了一个包含物体和碰撞效果的3D太阳系模型。还有网友认为,使用Claude 3.5 Sonnet编码的效率比其他任何大型语言模型都要高,甚至可以达到GPT-4的10倍。特别是在全新的Artifacts功能加持下,用户可以一边聊天一边生成和运行代码,简直令人惊叹。有网友甚至在不到2分钟内做出了一个戴着太阳镜的小狗吃骨头的游戏。

正如前面提到的那样,Claude 3.5引入的超强实时交互功能Artifacts,毫无疑问开启了交互式AI最有潜力的形式。它标志着Claude从对话式AI向协作工作环境的转变,而在不久的未来,Anthropic设想整个组织都能在共享空间中集中知识、文档以及工作,Claude随时提供服务。

Claude 3.5 Sonnet表现如此出色,许多网友戏言:压力直接传递给了OpenAI。毕竟,如果今年年底GPT-5再不发布,OpenAI被中美两国的大模型迅速赶超将成为不争的事实。

即便GPT-5如期而至,大家也会担忧,相较GPT-4,新一版的推理能力能否显著提高?现在硅谷坊间盛传,一次显著的性能提升至少需要10万张,甚至20万、30万张GPU卡。在这种情况下,OpenAI是否有足够的GPU卡来训练高质量数据?目前来看,这一切都是未知数。

Anthropic与OpenAI之间的较量愈演愈烈。两大AI独角兽公司之间的竞争不断加剧。

大家对Claude和GPT之间的角力如此关注,其中一个关键因素是大模型比拼背后潜藏的,是Anthropic与OpenAI之间的“爱恨情仇”。

就在今年5月,也就是Claude 3 Opus强势上线时,Anthropic的创始人Dario Amodei和Daniela Amodei(二人是兄妹)就对OpenAI展开了“暗戳戳的嘲笑”,称Anthropic的人工智能是世界上最好的。他们表示,Claude 3 Opus是当时世界上最强大的人工智能模型。

Amodei兄妹曾是OpenAI的前员工。2020年6月,OpenAI发布第3代大语言模型GPT-3的半年后,负责OpenAI研发的研究副总裁Dario Amodei和安全政策副总裁Daniela Amodei因对OpenAI管理层的理念和政策不认同,决定离职。离职后,他们创建了一家专注于安全的人工智能公司,即Anthropic。

值得一提的是,Anthropic的创始团队实际上就是GPT系列产品的早期开发者,这也是他们后来推出的Claude系列可以与GPT系列抗衡的重要原因。

Anthropic团队有一个明确的目标,就是构建一套“可靠、可解释、可控”的以人类利益为中心的人工智能系统。

事实上,这些关键词曾是OpenAI的愿景。但在2019年之后,尤其是在OpenAI接受了微软100亿美元的投资后,愿景与现实产生了冲突。如今,Amodei兄妹重拾了老东家的愿景,并研发出了更为智能的AI大模型,成为了老东家的直接竞争对手。

目前,GoMaxAI系统已同时接入了GPT-4o和Claude3.5模型,欢迎大家对比体验差别

除了模型的更新,Anthropic还在Claude.ai上推出了一项全新功能——Artifacts,扩展了用户与Claude互动的方式。

具体来说,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,只需要一键点击,这些Artifacts会出现在对话旁边的专用窗口中。这样便创建了一个动态工作空间,用户可以实时查看、编辑,并基于Claude的创作进行构建,将AI生成的内容无缝集成到他们的项目和工作流程中。

这个功能的添加,大大增强了Claude在复杂项目中的可用性。比如,在创建一个交互式游戏界面时,用户很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了,生成模型也未必能一次得到满意的结果。于是,用户可以参考软件开发的流程,将需求分解为多个步骤,更方便Claude Sonnet进行「渐进式开发」和迭代。

Artifacts功能标志着Claude从对话式AI向协作工作环境的演变。

Claude 3.5 Sonnet在研究生水平推理(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)方面都达到了最优效果,而且在掌握细微差别、幽默和复杂指令方面有了显著改进。这次模型升级,生成的文本也更自然、更相关。

此外,Anthropic同时预告,这是Claude 3.5系列中的第一个版本,未来几个月内,Anthropic计划发布Claude 3.5 Haiku和Claude 3.5 Opus。

不得不说,各种细节还是非常符合常识的,显示出大数据的预训练效果非常出色。当然,仍然需要仔细核对一些实验条件和试剂公司等是否有出入。

在读图和数据分析功能方面,我也进行了测试。对于内容过于复杂的图片,解释仍不够准确,因此我没有放出效果图。

总体来说,Claude 3.5在处理论文方面,长文本的读取和输出能力有了显著提升。更高版本的Opus更是值得期待。

如果说ChatGPT像是一位百变女郎,每次亮相都引人注目,功能全面,光芒四射;那么Claude则像是一位严谨的理工男,出场低调,但功能务实,总是能超预期呈现。小伙伴们赶紧去试试吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值