NeurIPS 2025 最佳论文奖公布!Qwen团队/清华大学/斯坦福等联合研究成果入选

NeurIPS 2025 的最佳论文奖和亚军论文奖授予了 7 篇具有突破性的论文,包括 4 篇最佳论文(其中一篇来自数据集和基准测试领域)和 3 篇亚军论文。

这 7 篇论文重点介绍了扩散模型理论、自监督强化学习、大型语言模型的注意力机制、语言模型的推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等方面的最新进展。

4 篇最佳论文

1.人工智能群智:语言模型的开放式同质性(及其延伸)

题目:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

  • 研究团队: 华盛顿大学、卡内基梅隆大学、艾伦人工智能研究所、Lila Sciences 、斯坦福大学

  • 摘要:大型语言模型(LM)通常难以生成多样化、类人的创意内容,这引发了人们对人类思维因反复接触相似输出而长期趋于同质化的担忧。然而,目前用于评估语言模型输出多样性的可扩展方法仍然有限,尤其是在随机数或姓名生成等狭窄任务之外,或者在对单个模型进行重复采样之外。

为了弥补这一不足,我们推出了 Infinity-Chat,这是一个包含 2.6 万个多样化、真实世界、开放式用户查询的大规模数据集,这些查询允许存在多种合理的答案,而没有单一的“标准答案”。我们首次提出了一个全面的分类体系,用于描述向语言模型提出的所有开放式提示,该体系包含 6 个顶级类别(例如,创意内容生成、头脑风暴和构思),每个类别又细分为 17 个子类别。

我们利用 Infinity-Chat 平台,对语言模型(LM)中的模式崩溃现象进行了大规模研究,揭示了开放式语言模型生成过程中显著的“人工蜂巢思维”效应。该效应表现为:(1) 模型内部重复性,即单个模型持续生成相似的响应;(2) 模型间同质性,即不同模型产生惊人相似的输出。Infinity-Chat 平台还包含 31,250 条人工标注,涵盖绝对评分和成对偏好,每个示例均有 25 条独立的人工标注。这使得我们能够研究针对开放式查询的集体和个体人类偏好。我们的研究结果表明,尽管保持了相当的整体质量,但对于引发不同标注者个性化偏好的模型生成,最先进的语言模型、奖励模型和语言模型评判者与人类评分的匹配度较低。总体而言,INFINITY-CHAT 提供了第一个大规模资源,用于系统地研究现实世界中对语言模型的开放式查询,揭示了关键见解,以指导未来的研究,从而减轻人工智能群体思维带来的长期人工智能安全风险。

2.门控注意力机制在大型语言模型中的应用:非线性、稀疏性与无注意力汇聚

题目:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

  • 研究团队:阿里巴巴 Qwen 团队、爱丁堡大学、斯坦福大学、麻省理工学院、清华大学

  • 摘要:从早期的 LSTM 和 Highway Networks 等模型到近期的状态空间模型、线性注意力机制以及 softmax 注意力机制,门控机制已被广泛应用。然而,现有文献很少研究门控机制的具体效果。本文通过一系列全面的实验,系统地研究了门控增强的 softmax 注意力机制变体。具体而言,我们对 30 种变体进行了全面比较,这些变体包含 150 亿个混合专家 (MoE) 模型和 17 亿个密集模型,均在 3.5 万亿个 token 的数据集上训练而成。我们的主要发现是,一个简单的改进——在缩放点积注意力 (SDPA) 之后应用一个针对特定头部的 sigmoid 门控——能够持续提升模型性能。此外,该改进还增强了训练稳定性,提高了模型对学习率的容忍度,并改善了模型的扩展性。通过比较不同的门控位置和计算变体,我们将这种有效性归因于两个关键因素:(1) 在softmax注意力机制的低秩映射中引入非线性,以及 (2) 应用查询相关的稀疏门控分数来调节SDPA输出。值得注意的是,我们发现这种稀疏门控机制可以缓解大规模激活和注意力陷阱,并提高长上下文外推性能。我们还发布了相关代码和模型,以促进未来的研究。此外,最有效的SDPA输出门控已应用于Qwen3-Next模型。

  • 论文地址https://go.hyper.ai/iBANK

  • Github 地址https://github.com/qiuzh20/gated_attention

3.千层网络在自监督强化学习中的应用:深度扩展可赋予全新目标达成能力

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

  • 研究团队:普林斯顿大学、华沙理工大学

  • 摘要:自监督学习的规模化应用已在语言和视觉领域取得了突破性进展,但在强化学习(RL)领域却鲜有类似进展。本文研究了自监督强化学习的构建模块,这些模块能够显著提升可扩展性,其中网络深度是关键因素。近年来大多数强化学习论文都依赖于浅层架构(约2-5层),而我们证明,将深度增加到1024层可以显著提升性能。我们的实验在无监督目标条件化环境下进行,不提供任何示范或奖励,因此智能体必须从零开始探索并学习如何最大化达成目标的可能性。在模拟的运动和操作任务上进行评估后,我们的方法在自监督对比强化学习算法上的性能提升了±倍,优于其他目标条件化基线方法。增加模型深度不仅提高了成功率,而且从根本上改变了学习到的行为。

  • 论文地址https://go.hyper.ai/HR0Hx

4.扩散模型为何不会死记硬背:隐式动态正则化在训练中的作用

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

  • 研究团队:巴黎文理大学(Université PSL)、博科尼大学

  • 摘要扩散:模型在各类生成任务中取得了显著成功。关键挑战在于理解其避免训练数据记忆化并实现泛化的机制。本研究探讨了训练动力学在泛化向记忆化过渡过程中的作用。通过大量实验与理论分析,我们识别出两个截然不同的时间尺度:早期阶段模型开始生成高质量样本,后期阶段则出现记忆化现象。关键发现在于:早期阶段随训练集规模线性增长,而后期阶段保持恒定。这形成了训练时间的渐进窗口——在此期间模型能有效泛化,但若训练持续至后期阶段则会出现强烈记忆化。唯有当该时间尺度超过模型特有的阈值时,过拟合现象才会在无限训练时间下消失。这些发现揭示了训练动态中存在隐式动态正则化机制,即使在高度过参数化的设置下也能避免记忆化。我们的结论通过标准U-Net架构在真实与合成数据集上的数值实验得到验证,并借助高维极限下可处理的随机特征模型理论分析予以支持。

  • 论文地址https://go.hyper.ai/UloDv

亚军

1.强化学习真的能激励逻辑学习模型在基础模型之外提升推理能力吗?

题目:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

  • 团队:清华大学 LeapLab 实验室、上海交通大学

  • 摘要:近年来,基于可验证奖励的强化学习(RLVR)在提升大型语言模型(LLM)的推理性能方面取得了显著成效,尤其是在数学和编程任务中。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR 使 LLM 能够持续自我改进,从而获得超越相应基础模型能力的全新推理能力。本研究通过系统地探究 RLVR 训练的 LLM 在不同模型族、强化学习算法以及数学/编程/视觉推理基准测试中的推理能力边界,并对 RLVR 的现状进行了深入分析。

我们使用大 k 值下的 pass@k 指标作为评估指标。研究发现,虽然 RLVR 提高了对正确路径的采样效率,但令人惊讶的是,当前的训练方法并未产生根本性的全新推理模式。我们观察到,虽然在较小的值(例如,=1)下,RLVR 训练的模型性能优于其基础模型,但当 值较大时,基础模型的 pass@ 分数更高。此外,我们观察到,随着 RLVR 训练的进行,LLM 的推理能力边界通常会缩小。进一步的覆盖率和困惑度分析表明,RLVR 模型生成的推理路径已经包含在基础模型的采样分布中,这表明它们的推理能力源于基础模型并受其限制。从这个角度来看,将基础模型视为上限,我们的定量分析表明,六种流行的 RLVR 算法性能相近,远未达到充分利用基础模型潜力的最优水平。

相比之下,我们发现蒸馏可以从教师模型中引入新的推理模式,并真正扩展模型的推理能力。综上所述,我们的研究结果表明,当前的 RLVR 方法尚未充分发挥强化学习在 LLM 中激发真正新颖的推理能力的潜力。这凸显了改进强化学习范式(例如持续扩展和多轮智能体-环境交互)的必要性,以释放这种潜力。

2.直推式在线学习的最优错误界限

题目:Optimal Mistake Bounds for Transductive Online Learning

  • 团队:肯特州立大学、普渡大学、谷歌研究院、麻省理工学院

  • 摘要:我们解决了一个存在了30年的开放性问题,即无标签数据在在线学习中的作用。我们通过精确量化直推式在线学习和标准在线学习之间的差距,解决了这一问题。我们证明,对于每个Littlestone维数为n的概念类,直推式错误界限至少为n。这比Ben-David、Kushilevitz和Mansour(1995,1997)以及Hanneke、Moran和Shafer(2023)分别给出的先前下界n、n和n有了指数级的改进。我们还证明了我们的界限是紧的:对于每个n,都存在一个Littlestone维数为n的概念类,其直推式错误界限为n。我们的上界也改进了Ben-David等人(1997)给出的先前已知的最佳上界。这些结果表明直推式在线学习和标准在线学习之间存在二次方差距,从而凸显了提前访问无标签实例序列的优势。这与PAC设置形成鲜明对比,在PAC设置中,直推式学习和标准学习表现出相似的样本复杂度。

  • 论文地址https://go.hyper.ai/00rHz

3.叠加结构带来稳健的神经网络可扩展性

题目:Superposition Yields Robust Neural Scaling

  • 团队:麻省理工学院

  • 摘要: 当今大型语言模型 (LLM) 的成功取决于模型越大性能越好的观察结果。然而,这种损失随模型规模呈幂律下降的神经缩放规律的起源尚不清楚。我们提出表征叠加(即 LLM 表示的特征数量超过其维度)可能是损失的关键因素,并导致神经缩放。基于 Anthropic 的玩具模型,我们使用权重衰减来控制叠加程度,从而系统地研究损失如何随模型规模缩放。当叠加较弱时,只有当数据特征频率服从幂律分布时,损失才遵循幂律。相反,在强叠加的情况下,由于表征向量之间的几何重叠,损失通常在广泛的频率分布范围内与模型维度呈反比关系。我们证实,开源 LLM 运行在强叠加状态下,损失与模型维度呈反比关系,并且 Chinchilla 的缩放规律也与此一致。我们的研究结果表明表征叠加是神经缩放规律的核心驱动力,为诸如神经缩放规律何时可以改进以及何时会失效等问题提供了见解。

  • 论文地址https://go.hyper.ai/AyLWt

如果你想了解更多 AI 前沿论文,
欢迎访问:https://hyper.ai/papers

<think>嗯,用户之前问过关于Qwen不同模型版本的问题,现在又提出了同样的问题,但这次是询问“上述问题适合用哪个模型训练”。我需要先回顾之前的对话。用户最初的问题是关于选择适合训练的模型,我的回答列出了各个模型的特点,比如MoE适合复杂任务,Instruct适合指令调优,Thinking适合逻辑推理,Next适合最新效果。 现在用户的问题是针对之前提到的各个模型,具体哪一个适合用来训练。这里可能需要明确用户指的是训练模型本身还是使用某个模型进行训练。不过根据上下文,用户可能是在问,对于训练任务来说,应该选择Qwen系列中的哪个模型作为基础模型进行训练。 首先,我需要确认每个模型的用途。例如,MoE可能更适合处理多样化的训练数据,而Instruct可能已经过指令调优,适合需要执行指令的任务。Thinking可能在逻辑推理方面更强,Next可能是最新的版本,包含优化后的结构或数据。 用户的问题可能涉及到模型选择,比如他们有一个特定的训练任务,想知道哪个Qwen模型作为基础模型更适合。这时候需要根据任务类型来推荐。比如,如果任务需要处理复杂多样的数据,MoE可能更合适;如果需要指令遵循,Instruct更好;如果是逻辑推理,Thinking更优;如果追求最新技术,Next可能更好。 另外,用户可能对模型训练的具体配置或参数设置有疑问,比如是否需要调整MoE的专家数量,或者Instruct模型是否需要额外的微调步骤。不过用户的问题比较直接,可能不需要深入到配置层面,而是模型选择层面。 需要注意的是,用户可能混淆了“训练模型”和“使用模型进行训练”的区别。如果是训练自己的模型,通常需要选择基础模型架构,比如选择Qwen-MoE作为基础模型进行微调。如果是使用预训练模型进行微调,那么根据任务需求选择对应的版本。 因此,回答应该明确各个模型适用的训练场景,并给出对应的建议。同时,要确保回答符合之前的示例格式,包括代码块和相关问题部分。不过用户的问题可能不需要代码示例,但根据之前的例子,可能需要提供代码块。但当前问题可能不需要,所以需要判断是否添加。 最后,生成相关问题时,要围绕模型选择、训练策略、性能评估等方面,确保问题具有相关性,并且符合用户可能的后续疑问。</think>Qwen系列模型的选择需结合训练任务特性: 1. **MoE**:适合多模态/多领域数据训练(如混合文本+代码),通过专家并行提升泛化性。 2. **Instruct**:适合指令微调(SFT)任务,尤其对话式场景需精准响应指令。 3. **Thinking**:适合逻辑推理/数学建模等需要链式思考能力的训练场景。 4. **Next**:适合追求最新架构优化(如混合精度训练)或大规模分布式训练任务。 ```python # 示例:选择模型进行微调的伪代码 def select_model(task_type): if task_type == "multi_expert": return QwenMoE() elif task_type == "instruction": return QwenInstruct() elif task_type == "reasoning": return QwenThinking() else: # default to latest version return QwenNext() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值