少即是多：微型网络的递归推理 ——在没有蛮力的时候，我们有更多的路可以走

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #神经网络 #论文阅读

读论文专栏收录该内容

68 篇文章

订阅专栏

这篇代码库目前在本日的top中，他点醒我们，在没有蛮力的时候，我们有更多的路可以走。

Abstract

层次化推理模型（HRM）是一种创新方法，通过两个不同频率递归的小型神经网络实现。这种受生物启发的方法在数独、迷宫和ARC-AGI等复杂任务中，仅用2700万参数的小型模型和∼1000个样本数据训练，就能超越大型语言模型（LLMs）。HRM在解决复杂问题方面展现出巨大潜力，但其原理尚未完全阐明，且可能存在次优解。我们提出微型递归模型（TRM），这种更简洁的递归推理方法仅需两层结构，却能显著提升泛化能力。仅用700万参数，TRM在ARC-AGI- 1测试中取得45%准确率，在ARC-AGI-2测试中达到8%，表现优于大多数参数不足0.01%的大型语言模型（如Deepseek R1、o3-mini、Gemini 2.5 Pro)。

层次化推理模型（HRM）==》微型递归模型（TRM）

1. Introduction(总结非原文)

大型语言模型（LLM）在处理复杂问答任务时仍存在明显短板，LLM采用自动回溯生成答案的方式，一旦出现单个错误标记就可能导致整个答案失效，存在较高的出错风险。为提升可靠性，LLM通常采用思路追踪（CoT）技术和测试时计算（TTC）技术。

思路追踪通过让模型在输出答案前逐步采样推理路径，模拟人类的思考过程。

测试时计算技术可采用K个候选答案中权重最高的答案

但人类水平的准确率（human-level accuracy）至今仍未实现突破，在新版ARC-AGI-2测试中，LLM表现欠佳——例如Gemini 2.5 Pro模型在TTC指标下仅获得4.9%的测试准确率。

“Human-level accuracy” (HLA)是一个在机器学习和人工智能领域中广泛使用的基准，它衡量的是AI系统在特定任务上的表现与人类在相同任务上的表现的接近程度或超越程度。它通常被定义为人类在给定分类任务中的平均表现。

人类水平准确度（Human-Level Accuracy）衡量的是人类在特定任务上的表现水平5。例如，在一个命名实体识别问题中，如果人类平均每100个实体中犯15个错误，那么人类水平表现就是15%的错误率

近期提出了一个创新方向。他们通过开发新型分层推理模型（HRM），在深度学习模型难以突破的数独解题、迷宫路径规划和ARC-AGI等难题上取得了高精度表现。该模型作为监督学习框架，具有两大核心创新：1）递归式分层推理机制；2）深度监督技术。

Wang, G., Li, J., Sun, Y., Chen, X., Liu, C., Wu, Y.,Lu, M., Song, S., and Yadkori, Y. A. Hierarchical reasoning model. arXiv preprint arXiv:2506.21734, 2025.

递归式分层推理通过多次对两个小型网络（高频的 $f_L$ 和低频的 $f_H$ ）进行递归运算来预测答案。每个网络都会生成不同的潜在特征： $f_L$ 输出 $z_H$ ， $f_H$ 输出 $z_L$ 。这两个特征 $(z_H,z_L)$ 共同作为输入，驱动两个网络运行。研究者基于大脑不同时间频率的运作机制以及感觉输入的层级化处理特性，提出了支持在不同层级进行递归运算的生物学依据。

深度监督通过多级监督步骤优化答案，同时将两个潜在特征作为改进步骤的初始值（在计算过程中将其与计算图解分离，防止梯度传播）。这种机制形成了残差连接，其原理类似于深度神经网络——由于这类网络需要消耗过多内存资源，无法在单次前向传播中实现。

针对ARC-AGI基准测试的独立分析表明，深度监督似乎是性能提升的主要驱动力

本研究揭示了递归推理的效益存在巨大提升空间，其优势远超传统增量式方法。我们提出的微型递归模型（Tiny recursive Model，简称TRM）采用精简架构，仅用两层网络即可显著超越传统HRM模型在各类任务中的泛化能力。具体表现为：数独极限版测试准确率从55%提升至87%，迷宫挑战版从75%跃升至85%，ARC-AGI-1模型从40%增至45%，ARC-AGI-2更是实现5%到8%的质的飞跃。

2. Background

2.1. Structure and goal

HRM的核心机制是监督学习。其工作原理是：输入数据驱动输出生成。输入与输出均采用[B，L]格式（当数据格式不同时，可通过添加填充标记进行适配），其中B表示批量大小，L代表上下文长度。

HRM包含四个可学习的组件：输入嵌入 $f_I(\cdot ; \theta_I)$ 、低级循环网络 $f_L(\cdot ; \theta_L)$ 、高级循环网络 $f_H(\cdot ; \theta_H)$ 和输出头 $f_O(\cdot ; \theta_O)$ 。当输入数据完成嵌入后，其形状将转换为 $[B,L,D]$ 格式，其中D表示嵌入维度。每个网络均采用四层Transformer架构，具体配置包括：RMSNorm、无偏置项、旋转嵌入技术以及SwiGLU激活函数。

2.2. Recursion at two different frequencies

根据Wang使用的超参数(n = 2 $f_L$ 步，1 $f_H$ 步；完成T = 2次），HRM的前向传播如下所示：

其中 $\hat y$ 是预测的输出答案， $z_L$ 和 $z_H$ 要么是初始化嵌入向量，要么是前一个深度监督步骤的嵌入向量（在将其从计算图中分离后）。HRM的前向传播过程包含6次函数评估，其中前4次函数评估会从计算图中分离且不会进行反向传播。作者在所有实验中均采用n = 2且T = 2的设置，但如算法2所示，HRM可通过允许任意数量的L步骤(n)和递归层级(T)进行扩展应用。

2.3. Fixed-point recursion with 1-step gradient approximation

假设 $(z_L,z_H)$ 通过从 $f_L$ 和 $f_H$ 进行递归运算达到一个固定点 $(z_L^*,z_H^*)$ 。

$z_L^* \approx f_L(z_L^*+z_H +x) \\ z_H^* \approx f_H(z_L+z_H^* )$

通过隐函数定理（Krantz & Parks，2002）结合一步梯度近似法（Bai et al.，2019），我们仅需反向传播最后 $f_L$ 和 $f_H$ 步来实现梯度近似。该定理可证明仅需追踪最后两步（共六步）的梯度即可，从而大幅降低内存需求。

2.4. Deep supervision

为提升深度学习效果，我们采用深度监督技术。该方法通过将前序潜在特征 $(z_L,z_H)$ 作为后续前向传播的初始化参数，使模型能够在多轮迭代中持续优化其潜在特征 $(z_L,z_H)$ ，直至（理想情况下）收敛到正确解。整个过程最多使用N=16个监督步骤。

2.5. Adaptive computational time (ACT)

系统引入了提前终止机制来判断是否应提前结束训练。该机制通过Q-learning objective实现——需将 $z_H$ 输入额外头层并执行额外前向传播（以判断此时终止是否优于后续）。这种方法被命名为自适应计算时间（ACT）。该机制仅在训练阶段启用

2.6. Deep supervision and 1-step gradient approximations replaces BPTT

深度监督与一步梯度近似为解决时间信用分配（TCA）问题提供了比时间反向传播（BPTT）更符合生物学原理且计算成本更低的替代方案。这意味着高鲁棒模型（HRM）无需遍历整个深度网络即可学习常规方法所需的超大规模网络。根据研究者实验采用的超参数设置，HRM实际上在 $n_{layers}(n+1)TN_{sup} = 4 * (2+1)*2*16 = 384$ 层的有效深度范围内进行推理。

2.7. Summary of HRM

HRM通过结合高频与低频两个不同频率的网络递归结构，并运用深度监督技术，在多轮监督学习过程中持续优化答案质量（同时采用ACT算法缩短每个数据样本的处理时间）。这种设计使模型无需通过全层反向传播即可实现极深的网络结构。相较于传统监督模型，该方法在处理复杂问答任务时展现出显著优势。不过，该方法存在明显缺陷：过度依赖不确定的生物学论据和固定点定理，且这些理论的适用性无法得到保证。在下一章节中，我们将深入探讨这些问题，并提出改进HRM的潜在方向。

3. Target for improvements in Hierarchical Reasoning Models

3.1.隐函数定理（IFT）与一步梯度近似

HRM仅对6个递归中的最后两个进行反向传播。

将这个定理应用到HRM中存在一些问题。最重要的是，无法保证达到一个固定点。但HRM模型不通过迭代求解固定点，而是直接对 $f_L$ 和 $f_H$ 进行前向传播。更令人费解的是，HRM模型仅执行四次递归运算后便停止应用一步近似法。在完成首轮包含两次 $f_L$ 计算和一次 $f_H$ 评估的循环后，它仅需对 $z_L$ 和 $z_H$ 各进行一次 $f_L$ 评估，便认定两者均已达到固定点, 随后，该模型会依次对两个潜在变量应用一步梯度近似法。

作者通过展示n = 7且T = 7的案例，证明了系统能够达到稳定状态。该案例中正向残差随时间推移逐渐降低。即便采用这种与论文中常规实验（n=2且T=2）不同的设置，我们仍观察到以下现象：

1. $z_H$ 的残差在每个步骤中都明显远高于0；

2. $z_L$ 的残差在多次迭代后才逐渐趋近于0，但仍显著高于0；

3.在T次迭代中仅进行一次 $f_L$ 评估后， $z_L$ 仍远未收敛——此时应视为达到固定点，并采用一步梯度近似法。

因此，虽然将IFT定理和一步梯度近似应用于HRM有一定的依据，因为残差通常会随着时间的推移而减少，但当定理实际应用时，不太可能达到固定点。

在下一节中，我们将证明我们可以绕过对IFT定理和一步梯度近似的需求，从而完全绕过这个问题。

3.2.两次前向传递与自适应计算时间（ACT）

HRM在训练过程中采用自适应计算时间（ACT）来优化每个数据样本的使用时长。该机制能判断何时停止当前迭代并转向新数据样本，显著提升了时间效率。

然而，ACT算法的实施需要付出代价。虽然HRM的论文中未直接说明具体成本，但其官方代码已明确体现。Q学习目标依赖于终止损失函数和持续损失函数。其中持续损失函数需要对HRM模型进行额外一次前向传播（包含全部6次函数评估）。这意味着尽管ACT算法在单样本优化时效率更高，但每个优化步骤仍需进行两次前向传播。具体实现方式详见算法2。

在下一节中，我们将展示如何绕过ACT中对两次前向传递的需求。

3.3.基于复杂生物学论点的层次解释

HRM研究团队基于生物学原理，为两个潜在变量和两个不同层级运作的网络体系提供了理论依据——这些理论与人工神经网络存在显著差异。他们甚至试图将HRM与小鼠脑部实验结果进行对照验证。尽管这种解释颇具启发性，却让人难以理解为何要采用如此设计的HRM系统。由于论文中缺乏消融实验数据，过度依赖生物学原理和定点定理（这些理论并非完全适用），导致我们难以厘清HRM各组件的具体功能及其作用机制。此外，为何选择两个潜在特征而非其他组合方式，这一问题也未得到充分说明。

在下一节中，我们将展示递归过程可以被大大简化，并以一种更简单的方式理解，这种方式不需要任何生物学论证、不动点定理、层次解释，也不需要使用两个网络。它还解释了为什么2是最佳特征数量（zL和zH）。

看来作者的方向十分明确，分别优化TFT和ACT的应用方法, 并提供更好的可解释性

4. Tiny Recursion Models

在本节中，我们提出微型递归模型（Tiny Recursion Models，简称TRMs）。与传统高阶递归模型（HRM）不同，TRMs无需复杂的数学定理、层级结构或生物学论证。该模型仅需单个微型网络（而非两个中型网络）和单次前向传播即可实现ACT计算（而非两次前向传播），同时具有更强的泛化能力。具体实现方法如算法3所示，并在图1中进行了可视化展示。我们还在表1中针对数独极端数据集（该数据集包含1000个训练样本和42.3万个测试样本，属于难度极高的数独类型）进行了消融实验。下文将详细阐述TRMs的核心组件。

4.1.无需不动点定理

为了利用一步梯度近似法，HRM假设zL和zH的递归过程都会收敛到不动点。这使得研究者只需对最后两次函数评估（1次fL和1次fH)进行反向传播即可。为绕过这一理论要求，我们定义了一个完整的递归流程：包含n次fL评估和1次fH评估。

$z_L \leftarrow f_L(z_L+z_H+x) \\ ...\\ z_L \leftarrow f_L(z_L+z_H+x) \\ z_H \leftarrow f_H(z_L+z_H)$

然后，我们只需对整个递归过程进行反向传播。

通过深度监督机制，模型能够学习处理任意输入的（ $z_L$ ， $z_H$ ）数据，并通过完整的递归过程进行优化，从而让 $z_H$ 更接近目标解。这意味着根据深度监督目标的设计原理，即使不使用梯度计算，仅需运行若干次完整的递归过程，就能使我们更接近目标解。我们建议在使用反向传播进行单次递归前，先运行T−1次不使用梯度的递归过程来优化（ $z_L$ ， $z_H$ )参数。

因此，我们没有采用单步梯度近似法，而是采用了包含n次fL评估和1次fH评估的完整递归过程。这完全消除了假设存在固定点的需求。我们已成功应用IFT定理结合一步梯度近似法。不过，我们仍可借助多个无需反向传播的递归过程来优化（ $z_L$ ， $z_H$ ）参数。

4.2.对 $z_H$ 和 $z_L$ 的简化重新解释

基于生物学理论，层次关系模型（HRM）被解释为对不同层级的两个潜在特征进行分层推理。但人们不禁要问：为何选择两个潜在特征而非三个或更多？我们真的需要基于生物学来证明这些所谓“分层”特征的合理性吗？我们提出一个更自然的非生物学解释，直接回答了为何存在两个特征的问题。

实际情况是： $z_H$ 本质上是当前（嵌入）解。通过应用输出头并使用argmax操作将结果四舍五入到最近的标记，即可逆转这种嵌入方式。而 $z_L$ 作为潜在特征，并不直接对应具体解，但通过应用 $z_H$ ← $f_H$ （x， $z_L$ ， $z_H$ ）可以将其转换为解。我们在图6的数独极限版中展示了示例，以突出 $z_H$ 确实对应解而 $z_L$ 不对应的特性。

一旦理解了这一点，层级结构就变得多余了——模型仅需输入x、当前解决方案y（原称 $z_H$ )以及潜在推理特征z（原称 $z_L$ )。当输入问题x、当前解决方案y和潜在推理z时，模型会递归优化其潜在推理z。随后，基于当前潜在推理z和先前解决方案y，模型将提出新的解决方案y（若现有方案已足够优秀，则维持现状）。

虽然这种重新诠释方式不会直接影响算法，但其简洁性和自然性更胜一筹。它解答了为何两个特征——在语境中记住问题x、先前推理z和答案y——能帮助模型迭代生成下一个推理z和答案y。若不传递先前的推理z，模型就会忘记如何得出前一个解决方案y（因为z的作用类似于思维链条）。若不传递前一个解决方案y，模型就会忘记已有的解法，被迫将y存储在z中而非用于潜在推理。因此我们需要分别处理y和z，而没有明显理由需要将z拆分成多个特征。

将思想和答案同时传递，话说为什么将y存储在z 中不行吗

虽然这很直观，但我们想验证使用更多或更少的功能是否有帮助。结果如表2所示。

更多特征（> 2）：我们尝试将z拆分为不同特征，具体做法是将每个递归步骤视为生成一个不同的zi（i=1，...，n）。随后，每个zi会在监督步骤中被传递。该方法如算法5所示。通过这种方式，我们发现性能有所下降。这符合预期，因为正如前文所述，实际上无需将z拆分成多个部分——它并不需要呈现层级结构。

单一特征：同样地，我们测试了仅通过在监督步骤间传递zH来提取单一特征的方法。该方法如算法4所示。在此过程中，我们发现性能有所下降。这是可以预期的，因为正如所讨论的，这种方法迫使模型将解y存储在z中。

因此，我们探索了在Sudoku-Extreme上使用或多或少的潜在变量，但发现只有y和z可以带来更好的测试准确率，而且是更简单自然的方法

4.3. Single network

HRM采用两个网络，其中一个作为低级模块 $f_L$ 频繁使用，另一个作为高级模块（ $f_H$ ）较少使用。这使得其参数数量是常规监督学习单个网络的两倍。

如前所述，虽然 $f_L$ 基于潜在推理特征z（HRM中的zL）进行迭代，但 $f_H$ 的目标是根据潜在推理和当前解来更新解决方案y（HRM中的zH）。值得注意的是，由于z← $f_L$ （x + y + z）包含x而y← $f_H$ （y + z）不包含x，因此任务的实现方式（基于z迭代还是用z更新y）直接取决于输入中是否包含x。为此，我们考虑用单一网络同时完成两项任务的可能性。通过这种设计，我们在数独极限测试中获得了更好的泛化效果（将TRM从82.4%提升至87.4%，详见表1），同时参数数量减半。结果表明，单个网络就足以胜任这项任务。

4.4. Less is more

我们尝试通过增加层数来扩展模型规模以提升容量。但令人意外的是，增加层数反而因过拟合导致泛化能力下降。反其道而行之时，我们发现当保持计算量和模拟深度大致相同的前提下，通过减少层数并按比例增加递归次数(n)，采用两层结构（而非四层）反而能最大化泛化效果。通过这种调整，我们在数独极限版测试中取得了更优的泛化表现（TRM从79.5%提升至87.4%，详见表1），同时参数数量再次减半。

令人惊讶的是，小型网络反而表现更优，但两层结构似乎是最佳选择。Bai和Melas-Kyriazi（2024）在深度均衡扩散模型中也观察到两层结构的最优性能，但他们发现其表现与大型网络相当，而我们却观察到两层结构具有更优性能。这看似有些反常，因为现代神经网络的泛化能力通常与模型规模成正比。然而当数据稀缺且模型规模过大时，可能会出现过拟合惩罚（Kaplan等人，2020）。这很可能表明数据量不足。因此，采用具有深度递归和深度监督的小型网络，似乎能帮助我们规避大量过拟合问题。

4.5.适用于具有小固定上下文长度的任务的无关注架构

自注意力机制在L≫D时特别适合长上下文长度的任务，因为它仅需[D，3D]参数矩阵即可处理完整序列。然而当任务规模L≤D时，线性层成本更低，仅需[L，L]参数矩阵即可实现。受MLP-Mixer（托尔斯季欣等人，2021)的启发，我们用序列长度上的多层感知机（MLP）替代自注意力层。采用MLP替代自注意力后，在数独极限任务中泛化效果显著提升（从74.7%提高到87.4%，详见表1）。该架构在9×9数独网格任务中表现优异，得益于其上下文长度小且固定；但针对迷宫难题和ARC-AGI等需要大上下文长度的任务（均采用30×30网格），我们发现这种架构并非最优选择。所有实验均展示了自注意力机制与非自注意力机制的对比结果。

4.6.无需使用ACT进行额外的前向传递

如前所述，通过Q学习在人力资源管理中实施ACT算法需要两次前向传播，这会拖慢训练速度。我们提出一个简单解决方案：取消Q学习中的持续损失函数，仅通过二元交叉熵损失来判断是否达到正确解并确定停止时机。移除持续损失后，我们既省去了昂贵的二次前向传播步骤，又能保持较高的判断准确率。实验表明，这一改动对泛化能力没有显著影响（从86.1%提升至87.4%，详见表1）。

4.7.指数移动平均线（EMA）

在处理小规模数据（如数独极限版和迷宫难题）时，高斯随机模型（HRM）容易过拟合并出现发散现象。为解决这一问题并提升模型稳定性，我们采用了权重指数移动平均（EMA）技术——这是生成对抗网络（GAN）和扩散模型中常用的稳定化手段。实践表明，该方法能有效避免模型突然崩溃，并显著提升泛化能力（从79.9%提升至87.4%，详见表1）。

4.8.最佳递归次数

我们通过调整T和n的参数进行多次递归次数实验，发现HRM模型在T = 3、n=3（相当于48次递归）时，TRM模型在T = 3、n=6（相当于42次递归）时，在数独极限版上能获得最佳泛化效果。虽然增加递归次数可能对更难的问题有帮助（由于资源有限尚未测试），但过度增加T或n会导致性能大幅下降。表3展示了HRM和TRM在不同n值与T值下的实验结果。需要注意的是，TRM需要通过完整递归过程进行反向传播，因此过度增加n会导致内存不足（OOM）错误。不过这种内存开销在黄金版应用中是值得的。接下来我们将展示HRM、TRM和LLM模型在多个数据集上的对比研究结果。

5. Results（可以自行观看）

6. Conclusion

我们提出了一种名为“微型递归模型”（Tiny Recursion Models，简称TRM）的创新方法。这种简洁的递归推理方案通过单一微型网络基于其潜在推理能力进行递归运算，逐步优化最终结果，在复杂任务中展现出强大的泛化能力。与传统的层次推理模型（Hierarchical reasoning Model，简称HRM）不同，TRM无需依赖不动点定理、复杂生物机制或层级结构。该模型通过将网络层数减半并用单一微型网络替代双层架构，显著降低了参数数量。同时，它简化了模型终止流程，无需额外前向传播步骤即可完成计算。总之，TRM比HRM简单得多，同时实现了更好的泛化。

虽然我们的方法在四个基准测试中表现更优，但每个选择未必适用于所有数据集。例如，我们发现用多层感知机（MLP）替代自注意力机制在数独极限测试中效果显著（测试准确率提升10%)，但在其他数据集上表现欠佳。不同的问题场景可能需要不同的网络架构或参数规模，因此需要建立扩展规律来优化这些网络的参数配置。尽管我们在深度递归算法上进行了简化和改进，但为何递归比使用更大更深的网络更有效仍需解释——我们推测这可能与过拟合有关，但目前尚无理论支撑这一推测。并非所有尝试都成功：我们在第6节简要讨论了部分未成功的实验方案。当前，像HRM（递归推理模型）和TRM（递归推理模型）这类递归推理模型属于监督学习方法而非生成式模型。这意味着给定输入问题时，它们只能提供单一确定性答案。但在许多应用场景中，同一问题可能存在多个答案。因此，将TRM扩展到生成式任务将是一个值得探索的方向。