claude-3-5-sonnet-20241022新模型概述

发布公告

本次更新并没有等来opus3-5,并且官方公告中显眼的opus3-5即将到来的提示也已经消失了,这难免有些失望。

不过Anthropic官方在2024年10月22日发布了Claude-3-5-sonnet的新版本,模型代号claude-3-5-sonnet-20241022,现已在聚合AI官网 >>中加入支持,所有用户可以使用,如有需要可前往调用。

sonnet新版本本次最大的亮点在于加入了计算机使用,现在通过API可用,开发者可以指导Claude像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中提供计算机使用功能的前沿AI模型。目前这一功能仍处于实验阶段,操作上可能会有些笨重和易出错,算是一个新的开端吧,后面官方承诺会持续改善。

另外还公布了haiku新版本haiku3.5的消息,不过要在今年晚一些时候开放给用户使用。

关于这方面更详细的介绍,查看官方发布的文章,点此阅读>>

性能测评

官方数据:基准测试评估了Claude 3.5 Sonnet模型在关键学术和实践技能上的比较表现。

测评表1

同时官方还评估了Claude 3.5 Sonnet在需要理解图像和图表等视觉任务上的表现。

测评表2.webp

来自第三方的数据,可以看到刚发布的10月新版本在所有模型中的综合排名情况,数据来源>>

一些进步

更新后的Claude 3.5 Sonnet在行业测试上表现非常出色,特别是在主动编码和工具使用方面有明显进步。在编码测试中,它将SWE-bench Verified的表现从33.4%提高到了49.0%,超过了所有公开的模型,不仅包括OpenAI o1-preview这样的推理模型,还有专为主动编码设计的系统。在TAU-bench这个主动工具使用的任务中,它在零售领域的表现从62.6%提升到了69.2%,在更具挑战性的航空领域从36.0%提升到了46.0%。而且,这么多改进是在保持前代产品相同价格和速度的基础上实现的,所以同等条件下,6月份的老版本可以考虑不再使用了,用10月份的新版本代替。

GitLab在对DevSecOps任务测试该模型时发现,它在不增加延迟的情况下提升了多达10%的推理能力,非常适合用于支持多步骤的软件开发流程。

Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,并与之前的版本相比,编码、计划和问题解决方面也有了显著改进。

官方还给出了其它一些合作用户的使用评价,大概的意思都是说发布的新版本sonnet性能都有不同程度的进步(手动狗头)。

负面评价

从昨晚上发布之后,便有大量的用户进行了实际评测,也有很多人表示新版本的表现并不如预期想象的好,可能从以下方面能力没有增长甚至负增长:

  • 创造力下降,即使更高的温度参数也不如老版本更具创意
  • 新版本遵循指令的能力有所下滑,表现出来就是不太听话
  • 智商下降,甚至9.11和9.9谁大的问题都不容易回答准确了

总结

claude-sonnet3.5新版本在代码方面的能力提升毋庸置疑,已经甩开了与OpenAI主流模型的差距,价格方面还是sonnet老模型的同等价格,所以可以放心大胆的使用。

综合性能方面有待进一步观察,如果是一些日常问题,建议使用更具性价比的gpt-4o。

相关阅读:

办公学习好帮手,20个支持API的良心AI工具推荐

实践中如何选择o1或sonnet3-5?

官方平替!一个支持GPT文档对话和多端同步的免费开源程序LibreChat

GPT-4 / Midjourney / GPTs,普通人如何用一套程序全搞定

通过NextChat(ChatGPT-Next-Web)低成本给自己或客户部署GPT程序

### DeepSeek-V3 的特点 DeepSeek-V3 是一种先进的大规模语言模型(LLM),其设计融合了多种创技术来提升推理能力和整体性能。该模型通过引入颖的方法,能够有效地从长链思考(long-Chain-of-Thought, CoT)模型中提取并优化推理能力,并将其集成到标准的大规模语言模型架构内[^3]。 这种改进不仅增强了模型的理解力和解决问题的能力,还使得开发者可以在保持输出风格一致性和长度可控的前提下利用这些增强功能。因此,在处理复杂查询时,DeepSeek-V3 能够提供更加精准且连贯的回答。 此外,DeepSeek-V3 在多个评估指标上展现了卓越的成绩,特别是在知识类任务方面,如 MMLU、MMLU-Pro、GPQA 和 SimpleQA 测试集中的表现几乎可以媲美目前最优秀的同类产品——Claude-3.5-Sonnet;而在涉及较长文本的任务测试里,则超过了竞争对手,在 DROP、FRAMES 及 LongBench v2 上取得了更好的成绩[^2]。 ### 更内容 为了进一步提高模型的表现力和服务质量,开发团队针对 DeepSeek- **强化推理机制**:采用了一种的方法论,可以从特定版本的 DeepSeek R1 系列模型中提炼出高效的推理模式,并成功应用于 DeepSeek-V3 中,从而显著提升了后者在这方面的效能。 - **控制输出特性**:除了加强核心算法外,这次更还包括对最终生成结果的形式进行了精细调整,确保用户接收到的信息既具有逻辑性又易于理解,同时还能满足不同应用场景下的具体需求。 ### 使用方法 对于想要部署或试用 DeepSeek-V3 的技术人员来说,官方文档提供了详细的指南说明如何快速入门以及最佳实践建议。以下是基本的操作流程概述: #### 安装环境准备 首先需要准备好适合运行此大型预训练模型所需的计算资源与软件依赖项。通常情况下,这涉及到配置 GPU 加速器支持、安装 Python 解释器及相关库文件等准备工作。 ```bash pip install deepseek-v3 # 假设这是用于安装包管理工具命令 ``` #### 初始化实例化对象 完成上述步骤之后就可以创建一个的 `DeepSeekV3` 类型的对象来进行交互操作了。 ```python from deepseek_v3 import DeepSeekV3 model = DeepSeekV3() ``` #### 提交请求获取响应 最后一步就是向已加载好的模型发送自然语言形式的问题或者指令,等待它返回经过精心构建的答案。 ```python response = model.generate(text="请解释什么是机器学习?") print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值