NeurIPS 2025 最佳论文奖公布！Qwen团队/清华大学/斯坦福等联合研究成果入选

原创于 2025-11-27 15:06:12 发布 · 657 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI #深度学习 #大语言模型 #强化学习 #扩散模型

人工智能专栏收录该内容

110 篇文章

订阅专栏

NeurIPS 2025 的最佳论文奖和亚军论文奖授予了 7 篇具有突破性的论文，包括 4 篇最佳论文（其中一篇来自数据集和基准测试领域）和 3 篇亚军论文。

这 7 篇论文重点介绍了扩散模型理论、自监督强化学习、大型语言模型的注意力机制、语言模型的推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等方面的最新进展。

4 篇最佳论文

1.人工智能群智：语言模型的开放式同质性（及其延伸）

题目：Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

研究团队：华盛顿大学、卡内基梅隆大学、艾伦人工智能研究所、Lila Sciences 、斯坦福大学
摘要：大型语言模型（LM）通常难以生成多样化、类人的创意内容，这引发了人们对人类思维因反复接触相似输出而长期趋于同质化的担忧。然而，目前用于评估语言模型输出多样性的可扩展方法仍然有限，尤其是在随机数或姓名生成等狭窄任务之外，或者在对单个模型进行重复采样之外。

为了弥补这一不足，我们推出了 Infinity-Chat，这是一个包含 2.6 万个多样化、真实世界、开放式用户查询的大规模数据集，这些查询允许存在多种合理的答案，而没有单一的“标准答案”。我们首次提出了一个全面的分类体系，用于描述向语言模型提出的所有开放式提示，该体系包含 6 个顶级类别（例如，创意内容生成、头脑风暴和构思），每个类别又细分为 17 个子类别。

我们利用 Infinity-Chat 平台，对语言模型（LM）中的模式崩溃现象进行了大规模研究，揭示了开放式语言模型生成过程中显著的“人工蜂巢思维”效应。该效应表现为：(1) 模型内部重复性，即单个模型持续生成相似的响应；(2) 模型间同质性，即不同模型产生惊人相似的输出。Infinity-Chat 平台还包含 31,250 条人工标注，涵盖绝对评分和成对偏好，每个示例均有 25 条独立的人工标注。这使得我们能够研究针对开放式查询的集体和个体人类偏好。我们的研究结果表明，尽管保持了相当的整体质量，但对于引发不同标注者个性化偏好的模型生成，最先进的语言模型、奖励模型和语言模型评判者与人类评分的匹配度较低。总体而言，INFINITY-CHAT 提供了第一个大规模资源，用于系统地研究现实世界中对语言模型的开放式查询，揭示了关键见解，以指导未来的研究，从而减轻人工智能群体思维带来的长期人工智能安全风险。

论文链接： https://go.hyper.ai/DZga5

2.门控注意力机制在大型语言模型中的应用：非线性、稀疏性与无注意力汇聚

题目：Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

研究团队：阿里巴巴 Qwen 团队、爱丁堡大学、斯坦福大学、麻省理工学院、清华大学
摘要：从早期的 LSTM 和 Highway Networks 等模型到近期的状态空间模型、线性注意力机制以及 softmax 注意力机制，门控机制已被广泛应用。然而，现有文献很少研究门控机制的具体效果。本文通过一系列全面的实验，系统地研究了门控增强的 softmax 注意力机制变体。具体而言，我们对 30 种变体进行了全面比较，这些变体包含 150 亿个混合专家 (MoE) 模型和 17 亿个密集模型，均在 3.5 万亿个 token 的数据集上训练而成。我们的主要发现是，一个简单的改进——在缩放点积注意力 (SDPA) 之后应用一个针对特定头部的 sigmoid 门控——能够持续提升模型性能。此外，该改进还增强了训练稳定性，提高了模型对学习率的容忍度，并改善了模型的扩展性。通过比较不同的门控位置和计算变体，我们将这种有效性归因于两个关键因素：(1) 在softmax注意力机制的低秩映射中引入非线性，以及 (2) 应用查询相关的稀疏门控分数来调节SDPA输出。值得注意的是，我们发现这种稀疏门控机制可以缓解大规模激活和注意力陷阱，并提高长上下文外推性能。我们还发布了相关代码和模型，以促进未来的研究。此外，最有效的SDPA输出门控已应用于Qwen3-Next模型。
论文地址：https://go.hyper.ai/iBANK
Github 地址：https://github.com/qiuzh20/gated_attention

3.千层网络在自监督强化学习中的应用：深度扩展可赋予全新目标达成能力

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

研究团队：普林斯顿大学、华沙理工大学
摘要：自监督学习的规模化应用已在语言和视觉领域取得了突破性进展，但在强化学习（RL）领域却鲜有类似进展。本文研究了自监督强化学习的构建模块，这些模块能够显著提升可扩展性，其中网络深度是关键因素。近年来大多数强化学习论文都依赖于浅层架构（约2-5层），而我们证明，将深度增加到1024层可以显著提升性能。我们的实验在无监督目标条件化环境下进行，不提供任何示范或奖励，因此智能体必须从零开始探索并学习如何最大化达成目标的可能性。在模拟的运动和操作任务上进行评估后，我们的方法在自监督对比强化学习算法上的性能提升了±倍，优于其他目标条件化基线方法。增加模型深度不仅提高了成功率，而且从根本上改变了学习到的行为。
论文地址：https://go.hyper.ai/HR0Hx

4.扩散模型为何不会死记硬背：隐式动态正则化在训练中的作用

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

研究团队：巴黎文理大学（Université PSL）、博科尼大学
摘要扩散：模型在各类生成任务中取得了显著成功。关键挑战在于理解其避免训练数据记忆化并实现泛化的机制。本研究探讨了训练动力学在泛化向记忆化过渡过程中的作用。通过大量实验与理论分析，我们识别出两个截然不同的时间尺度：早期阶段模型开始生成高质量样本，后期阶段则出现记忆化现象。关键发现在于：早期阶段随训练集规模线性增长，而后期阶段保持恒定。这形成了训练时间的渐进窗口——在此期间模型能有效泛化，但若训练持续至后期阶段则会出现强烈记忆化。唯有当该时间尺度超过模型特有的阈值时，过拟合现象才会在无限训练时间下消失。这些发现揭示了训练动态中存在隐式动态正则化机制，即使在高度过参数化的设置下也能避免记忆化。我们的结论通过标准U-Net架构在真实与合成数据集上的数值实验得到验证，并借助高维极限下可处理的随机特征模型理论分析予以支持。
论文地址：https://go.hyper.ai/UloDv

亚军

1.强化学习真的能激励逻辑学习模型在基础模型之外提升推理能力吗？

题目：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

团队：清华大学 LeapLab 实验室、上海交通大学
摘要：近年来，基于可验证奖励的强化学习（RLVR）在提升大型语言模型（LLM）的推理性能方面取得了显著成效，尤其是在数学和编程任务中。人们普遍认为，与传统强化学习帮助智能体探索和学习新策略类似，RLVR 使 LLM 能够持续自我改进，从而获得超越相应基础模型能力的全新推理能力。本研究通过系统地探究 RLVR 训练的 LLM 在不同模型族、强化学习算法以及数学/编程/视觉推理基准测试中的推理能力边界，并对 RLVR 的现状进行了深入分析。

我们使用大 k 值下的 pass@k 指标作为评估指标。研究发现，虽然 RLVR 提高了对正确路径的采样效率，但令人惊讶的是，当前的训练方法并未产生根本性的全新推理模式。我们观察到，虽然在较小的值（例如，=1）下，RLVR 训练的模型性能优于其基础模型，但当值较大时，基础模型的 pass@ 分数更高。此外，我们观察到，随着 RLVR 训练的进行，LLM 的推理能力边界通常会缩小。进一步的覆盖率和困惑度分析表明，RLVR 模型生成的推理路径已经包含在基础模型的采样分布中，这表明它们的推理能力源于基础模型并受其限制。从这个角度来看，将基础模型视为上限，我们的定量分析表明，六种流行的 RLVR 算法性能相近，远未达到充分利用基础模型潜力的最优水平。

相比之下，我们发现蒸馏可以从教师模型中引入新的推理模式，并真正扩展模型的推理能力。综上所述，我们的研究结果表明，当前的 RLVR 方法尚未充分发挥强化学习在 LLM 中激发真正新颖的推理能力的潜力。这凸显了改进强化学习范式（例如持续扩展和多轮智能体-环境交互）的必要性，以释放这种潜力。

论文地址：https://go.hyper.ai/fwkSX

2.直推式在线学习的最优错误界限

题目：Optimal Mistake Bounds for Transductive Online Learning

团队：肯特州立大学、普渡大学、谷歌研究院、麻省理工学院
摘要：我们解决了一个存在了30年的开放性问题，即无标签数据在在线学习中的作用。我们通过精确量化直推式在线学习和标准在线学习之间的差距，解决了这一问题。我们证明，对于每个Littlestone维数为n的概念类，直推式错误界限至少为n。这比Ben-David、Kushilevitz和Mansour（1995，1997）以及Hanneke、Moran和Shafer（2023）分别给出的先前下界n、n和n有了指数级的改进。我们还证明了我们的界限是紧的：对于每个n，都存在一个Littlestone维数为n的概念类，其直推式错误界限为n。我们的上界也改进了Ben-David等人（1997）给出的先前已知的最佳上界。这些结果表明直推式在线学习和标准在线学习之间存在二次方差距，从而凸显了提前访问无标签实例序列的优势。这与PAC设置形成鲜明对比，在PAC设置中，直推式学习和标准学习表现出相似的样本复杂度。
论文地址：https://go.hyper.ai/00rHz

3.叠加结构带来稳健的神经网络可扩展性

题目：Superposition Yields Robust Neural Scaling

团队：麻省理工学院
摘要： 当今大型语言模型 (LLM) 的成功取决于模型越大性能越好的观察结果。然而，这种损失随模型规模呈幂律下降的神经缩放规律的起源尚不清楚。我们提出表征叠加（即 LLM 表示的特征数量超过其维度）可能是损失的关键因素，并导致神经缩放。基于 Anthropic 的玩具模型，我们使用权重衰减来控制叠加程度，从而系统地研究损失如何随模型规模缩放。当叠加较弱时，只有当数据特征频率服从幂律分布时，损失才遵循幂律。相反，在强叠加的情况下，由于表征向量之间的几何重叠，损失通常在广泛的频率分布范围内与模型维度呈反比关系。我们证实，开源 LLM 运行在强叠加状态下，损失与模型维度呈反比关系，并且 Chinchilla 的缩放规律也与此一致。我们的研究结果表明表征叠加是神经缩放规律的核心驱动力，为诸如神经缩放规律何时可以改进以及何时会失效等问题提供了见解。
论文地址：https://go.hyper.ai/AyLWt

如果你想了解更多 AI 前沿论文，
欢迎访问：https://hyper.ai/papers