LLM Weekly（2025.02.17-02.23）

UnknownBody

已于 2025-07-09 17:58:28 修改

阅读量702

点赞数 19

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Weekly 文章标签：人工智能自然语言处理

于 2025-02-26 16:37:08 首次发布

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/145878868

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

38 篇文章

订阅专栏

在这里插入图片描述

网络新闻

Grok 3 Beta——推理代理的时代。Grok发布了Grok 3 Beta，通过强化学习、扩展计算和多模态理解提供卓越的推理能力。Grok 3和Grok 3 mini在学术基准上取得了高分，其中Grok 3在AIME’25上获得了93.3%的分数。Grok 3的推理可通过“思考”按钮访问，与xAI的DeepSearch集成，用于全面的知识检索。
Perplexity AI开源取消了审查的后训练DeepSeek-R1。Perplexity AI引入了R1 1776模型，这是一个经过后期训练的DeepSeek-R1，旨在消除审查制度，同时保持高度的推理能力。使用人类注释者和LLM评委进行的严格的多语言评估证实，去中心化不会影响模型的核心推理能力，在各种敏感主题上与基础R1模型表现相当。
OpenAI现在揭示了更多其o3 mini模型的思维过程。OpenAI更新了其o3 mini模型，以揭示更多的“推理”步骤，以应对来自DeepSeek的竞争。新的“思维链”功能显示了模型决策过程的详细摘要，增强了用户的理解和信心。虽然不完全透明，但此次更新在竞争问题与用户需求之间取得了平衡，提高了多种语言的清晰度和可访问性。
介绍SWE Lancer基准。SWE Lancher介绍了Upwork的1400多个自由