『一句话』总结三篇文章
开玩笑,一句话总结不了,因为观点有冲突。 三篇文章都在概念上把LLM切成了三段,接近输入层的输入段,接近输出的输出段,远离输入输出的中间段 。
效率文用Transformer每两层之间的层hidden 算cosine similarity,如果cosine similarity远大于0,则说明hidden的方向不再显著调整,作者认定这种【不再显著调整方向】属于低效,并认为大部分LLM不管大小都存在相似程度的低效。
怎么用文 认为LLM在输入段先基于经验猜一个结果,经过中间段的调整后,到输出段还要反复纠结许久;一个显著的现象是,Topk token的排序在LLM输出段仍然在‘大幅重排’。
动态文 给每层做了个“跳过”,“重播”和“正常播放” 的三选一按键,先用蒙特卡洛树搜索(MCTS)采了一些能让LLM效果变好的路径,再给每个层配一个MLP去学习这个开关,得到了In-Domain上略好一点的推理结果。
一、关键细节
1. 效率文的观察结果对,但观察结论过于武断
效率文中跟踪观察了,Transformer每个层之间cosine similarity 的变化,并以此作为层使用效率的评价依据。比如下图中,作者把多种模型的每层Attention Output之间,MLP Output之间的cosine similar算出来,形成的这个图。

上图确实展示了:不同模型的共同趋势都是【最后几层的相似度非常高】,并且不拘模型大小,也不拘是否Instruct模型,
其实相似的观察,很多前作也有,效率文的创新性其实比较薄。就比如Your Transformer is Secretly Linear 这篇里也有一个类似的图,他把不同种类、不同大小的模型的线性分打了出来(这篇工作用层的hidden去线性拟合层的hidden,拟合优度就是线性分)

上图的左半部分,展示了每层实际hidden(也就是Attention后加回到residual上之后的正常Output)拟合下一层hidden的拟合优度,右半部分跟效率文的视角就比较接近,用Attention Output去拟合下一层的Attention Output,呈现的趋势和本篇是一致的——输出段的层中,Attention Output之间的线性程度也很高,也就是角度高度相似。
不过,作者的分析结论却不一定合理,或者说这篇工作的作者其实主动回避了深入讨论层“高效”和层“有用”之间的差异。
- 平均视角去观察LLM层的有效性意义不大:一些decoding 的文章也会做early exit的工作,但是发现不同难度的任务,甚至具体到不同功能的token上,early exit出现的位置是不相同的,一般会认为需要推理步骤越多的token其使用层数是更多的。
- 先确定有什么用,再确定这个用处上是否有效:这里第二个视角错误,就是抛开了某一层特有的功能而用一种“大一统”的视角去讨论Effective。一如视觉模型在讨论输入段提取纹理,中间段整理语义特征,输出段组合判断一样,一些研究LLM模型合并的工作会发现,LLM的不同层负责的功能略有差别,中间段有些特定层对代码任务更敏感,少了就会效果变差,有些层则对数学问题更敏感。本文的立场,就好像让举重运动员和长跑运动员,都适配同一个体能测试标准一样愚蠢(我没有在阴阳什么曾经的领导……)
退一步讲,就算用相似度观察,观察层间的平均相似度之后,不看看这些平均之下,谁变了,谁没变吗?
2.怎么用文从TopK排序角度观察,发现即便接近输出的几层LLM的预测仍在显著变化
怎么用文给LLM的每层训练了一个映射回词表的W矩阵,用以观测【直接从这一层输出的话,模型会输出什么样的Token分布】。
从整体分布变化上,作者得到了几个观测,其一、输入段时LLM更偏好高频概念

其二、输入段的输出分布大概率(80%以上)会背推翻(下图算的就是每一层的输出被后面层改掉的比例)

其三、即便到了输出段,输出token的分布仍然在显著变化。 下面这张图比较绕,画得是样本有n%样本的正确答案在Rank-1(下图实线)/有n%的样本,正确答案没进Top-k,这种变化的情况确实也是有些LLM early exit不一定能拿到好结果的部分原因。

3. 动态文 给每层装了个跳过/重播键——但……
↑这个【但】放到本节最后。 其实就LoopTransformer这个方向看(不一定是latent space reasoning方向,Loop Transformer基本上都是不同形式可循环的Transformer结构的研究),目前效果比较好的是Block-Wise的Loop,也有Token Wise的By Layer决定是否单层Loop的工作(Inner Thinking Transformer),但之前的工作大多数没有把跳过和重跑放到一个框架里考虑。
动态文给每层都安了一个三选一的决策按钮——一个MLP层,去决定本层是 【跳过】(跑0次),还是【重播】(其实是指跑两遍),还是【继续】(正常跑)。
在这个功能的加持下,LLM【并没有】获得更好的结果(In-Domain有涨1%左右,但Out-of-Domain跌1%左右 ,下面+Router就是作者的方法)

作者的训练方案是:用蒙特卡洛树搜索采样了相对效果最好的<层路径>(每层也只有跳过/重播/继续 这三种选择,针对层的LLM训练了 个路由器,每层一个。
只不过,在<预料之外,情理之中>的是其实MCTS实际采样出来的绝大部分路径还是顺着正常前向走,具体看下图。 下图中作者把多个数据集中用MCTS采样后得到的行动决策数展示了出来,图上几乎难以见到【重播】,在ARC数据集上还能见到一点比例的【跳过】。

在保障了拟合精度的前提下,这样训练出的控制键反而是对原本的前向没有太大改变的。 本节标题里有个【但……】,指的就是,作者的训练方案没有作用在基于Loop训练的Transformer上,可能从根本上制约了这种方法的实际能力。
我在初看这篇文章的时候,第一个疑问就是,他是重训的模型还是在现有的模型上搞的——答,在现有的模型上搞的。我其实非常怀疑这种剥离开预训练的方案到底能不能获得比较显著的提升,从这篇工作的角度看,层数的有效拓展单凭固定层数的预训练显然是不行的(虽然好像某个Loop Transformer的前作也展示了这个观点)。
二、评价
研究Transformer的层的效率和功能其实是个比较经典的话题,这个话题在今年 Test-time Scaling这个思路打开后,好像在现有的LLM上找到一条更好的推理路径,或者延伸Transformer的实际运算深度就成了一个很热的话题。
从另一个角度看,我们也可以认为,离散的COT的一部分职能就是给Transformer增加了一个外接的支具或者Checkpoint,以延伸器实际推理深度。而移除外接支具,重新让这种共深度延伸回到自然的模型前向中,是研究latent space reasoning的主要动力之一。
但是,到现在为止,在共识上其实没有比较好的统一——即,并没有很好的定义用latent space的具体目的——比如,应该获得什么更好的性质?应该补全现有离散空间在处理信息上的什么问题?等等,导致现在latent space reasoning的很多工作,在局部看是很有趣的,但在整个方向的发展脉络上……可能并没有推着整个方向前进。
当然,研究Transformer层的性质这个方向,本身也是为了带来对Transformer性质的认知,以期能够找到合适的发展方向。
1.很遗憾的是,效率文这篇工作尽管在很多模型和数据上做了对Transformer的测度,但是这个测度本身其实缺乏新意,也很难说这篇文章真正带来了比较好的认知。
2.怎么用文 从一个相对更细致的角度去观察层的功能变化,带来的认知——【LLM是先猜个大概再仔细琢磨,高难问题还会反复纠结】,也有其他工作可以佐证(可以点我头像,找"LLM怎么做加法",或者直接看看Anthropic的文章 On the Biology of LLM )
3.动态文从每层可Loop的角度出发,给每层配了一个用MCTS采样决策的好路径来学习——这个思路其实挺有意思的,就是无法适配到原生Loop Transformer上,同时也无法改变现有Transformer已经训练好,可能已经比较固化的现实。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



