- 博客(11)
- 收藏
- 关注
原创 离散分布采样优化:Gumbel分布、Gumbel-Max Trick与Gumbel-softmax
Gumbel分布是一种极值分布,用于描述一系列独立同分布随机变量的最大值的分布。在机器学习中,我们主要使用逆变换采样:如果U服从均匀分布U(0,1),那么F−1U服从分布F。从逆变换采样出发,记Gumbel分布的CDF为FxF−1U−log−logU))
2025-11-25 21:03:34
262
原创 条件计算系列6:Neurons in Large Language Models: Dead, N-gram, Positional
摘要: Meta发表在ACL 2024的研究揭示了大型语言模型FFN层的神经元活动规律。研究发现: 神经元死亡现象:模型前50%层存在大量完全无激活的“死亡神经元”(66B模型某些层超70%),后半层神经元则普遍活跃,暗示低级到高级概念的特征空间转换。 n-gram检测器特性:存活神经元多作为n-gram检测器,浅层模式简单(如单词变体),深层模式复杂;13B+模型出现检测器数量“多→少→多→少”的阶段性变化,可能反映概念重组过程。 信息移除机制:神经元激活时不仅提升下一token概率,还会显式清除当前输入
2025-10-19 19:43:22
944
原创 渐进式、渐进分析初步
本文基于《具体数学》第九章内容,重点讨论了渐进分析中的大O记号及其应用。文章首先通过组合数求和的例子展示了渐进分析的价值,即无需精确解也能把握函数增长趋势。随后介绍了函数增长率的比较符号(≺、≍、∼)及其性质,并详细阐述了大O记号的定义和使用场景。大O记号用于描述函数在极限情况下的上界行为,能有效忽略不重要的细节。文章强调了大O的本质是一个函数集合,并通过实例说明其在不同数学分析场景中的应用,为理解算法复杂度等实际问题提供了理论基础。
2025-10-09 18:43:50
409
原创 条件计算系列5:LayerSkip Enabling Early Exit Inference and Self-Speculative Decoding
本文提出LayerSkip方法,通过早退机制实现自推测解码加速推理。核心创新包括:1)采用分层随机Dropout,浅层低Drop率、深层高Drop率;2)设计早退损失函数,使所有层共享同一LM头;3)利用早退输出作为草稿,剩余层进行验证,实现内存高效的自推测解码。实验在7B/13B规模的LLaMA模型上进行,涵盖预训练、持续训练和微调场景,在文本生成、编程和语义解析任务上实现近2倍加速。该方法无需额外模块,通过统一训练框架同时支持早退和自推测解码,为大规模模型推理优化提供了新思路。
2025-09-25 19:19:32
918
原创 条件计算系列4:Fast and Robust Early-Exiting Framework for Autoregressive Language Models
本文提出了一种快速稳健的早退框架(FREE),通过将模型分为浅层和深层模块,并采用同步并行解码机制,有效解决了自回归语言模型推理延迟问题。FREE框架通过Beta混合模型自适应调整置信度阈值,显著提升了早退机制的准确性和效率。实验表明,该方法在减少计算开销的同时保持了模型性能,适用于不同规模的模型。
2025-09-04 19:22:08
889
原创 综述系列1:A Survey on Parallel Text Generation From Parallel Decoding to Diffusion Language Models
本文综述了并行文本生成技术的最新进展,系统分析了自回归(AR)与非自回归(Non-AR)两类生成范式。随着大型语言模型(LLMs)的广泛应用,传统自回归逐token生成方式的效率瓶颈日益凸显。为突破这一限制,研究者提出了并行解码、扩散模型等多种并行生成方法,通过单步预测多token或重构生成流程显著提升推理速度。文章从理论角度比较了不同方法在速度、质量和效率上的权衡,探讨其与现有加速策略的协同潜力,并指出未来研究方向。作者还建立了GitHub资源库
2025-09-03 18:27:59
1027
原创 条件计算系列3:Relaxed Recursive Transformers Effective Parameter Sharing with Layer-wise LoRA
本文是这个专栏的第三篇文章,这篇文章的作者来自于韩国科学技术院(KAIST)和谷歌deepmind。本文实验最大做到了2B模型,主要突破包括①预训练的transformer权重+LORA构成循环块的权重②结合recurisive transformer中Early-Exit的新推理范式,该范式可以进一步消除的推理过程中的气泡(bubble)。预训练transformer权重+LORA这个idea相当不错,在大规模并行中就可以每个GPU放由若干层构成的循环块以及LORA参数,这个架构在直觉上是计算高效的。
2025-08-29 15:14:18
983
原创 条件计算系列2:Mixture-of-Recursions Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
本文是这个专栏的第二篇文章,这篇文章的作者来自于韩国科学技术院(KAIST)和魁北克人工智能研究所(mila),Google团队也参与了这个工作但主要是技术指导。本文于2025年发布于arxiv上。这个工作主要是基于Recursive Transformer的这篇文章的实验部分使用了参数从135M到1.7B的,还是单卡能塞下,所以还需要进一步考虑便于大规模并行实现的动态深度(dynamic depth)的实现方式。
2025-08-27 15:37:59
721
原创 条件计算系列-1:Mixture-of-Depths Dynamically allocating compute in transformer-based language models
这篇文章是谷歌deepmind于2024年发布在arxiv上的。这个工作是基于静态计算图的,采用了类似于MoE的方法,通过动态的token级别的路由来决定网络的深度(参与该block的计算,或者是通过残差链接直接跳过这个block)。如下图所示:该图的左半部分展示了一次token级别的路由决策,对于tokenxix_{i}xi,router给出权重是0.41,所以跳过这个block,通过残差链接直接送到下一层。而对于tokenxi1x_{i+1}xi1。
2025-08-26 10:03:31
639
原创 贝尔曼方程-推导与联系
由定义出发,可以得VVV与QQQvπsEa∼π⋅∣sqπsaV−QvπsEa∼π⋅∣sqπsa)]V−QvπsEa∼π⋅∣sEr∣saγEs′∼p⋅∣savπs′V−VqπsaEr∣saγEs′∼p⋅∣savπs′Q−VqπsaEr∣saγEs′∼p⋅∣saE。
2020-04-12 02:12:09
6359
12
原创 当凸函数可微时子梯度与梯度等价的证明
摘要:本文证明了可微凸函数的梯度是其唯一的子梯度。通过构造辅助函数$\phi(t)$和$\psi(t)$,利用凸性和可微性,推导出$\nabla f(x)$满足子梯度定义,并证明任何其他子梯度$z$都必须等于$\nabla f(x)$。该结论表明可微凸函数的梯度在优化问题中具有唯一性。
2020-04-12 01:10:19
471
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅