- 博客(14)
- 收藏
- 关注
原创 【手推深度学习导数系列】3. 一文详解Dropout
摘要: Dropout是一种防止神经网络过拟合的技术,通过在训练时随机禁用部分神经元(概率p)来改变网络结构。推理阶段需关闭Dropout,为保持输出期望一致,需对神经元值缩放(乘以1/(1-p))。实现时通过伯努利分布生成掩码确定禁用状态,PyTorch提供nn.Dropout和F.dropout两种方式,前者通过train()/eval()自动切换训练与推理模式。文章还从集成学习角度解释其抗过拟合机制与其缩放因子。
2025-09-06 15:28:38
1136
原创 【手推深度学习导数系列】2. softmax
本文推导了softmax函数对输入的导数,结果表明,softmax对输入的导数完全由其输出决定,这种特性将在后续激活值显存占用分析中应用。
2025-08-27 12:17:15
604
原创 【手推深度学习导数系列】1. LayerNorm
本文详细推导了LayerNorm层的前向计算和反向传播过程。前向计算包括对输入x求均值μ和方差σ,进行归一化后通过γ、β参数缩放偏移。反向传播中,对参数γ、β的导数以及对输入的与输入x及其统计量相关;对输入x的导数则更为复杂,涉及多元复合函数求导,最终结果与输入x、均值μ、标准差σ相关。这些推导为后续分析激活值显存占用提供了理论基础。
2025-08-26 22:57:52
478
原创 【Attention系列】6. TransMLA(上):无痛GQA转MLA,十倍推理加速还不掉点
本文介绍了如何将GQA模型高效转换为MLA模型的方法,这种转换只需少量训练即可接近原模型效果,同时获得10倍推理加速。
2025-08-13 20:51:21
1197
原创 【Attention系列】5. 基于KV cache的自回归解码中MHA相关访存量
本文探讨了基于KV cache的自回归解码中MHA(多头自注意力)相关的访存量问题。文章首先介绍了GPU内存的层次结构,重点区分了片上(on-chip)和片下(off-chip)内存的特性差异。随后详细分析了矩阵乘法的访存量计算方法,比较了简单实现与分块矩阵乘法在访存量上的区别,并引入渐进访存量复杂度(大O表示法)来评估访存量随数据规模增长的趋势。通过这些分析,文章揭示了在自回归解码过程中,KV cache机制如何影响整体访存量。
2025-08-13 19:48:55
946
原创 训练时显存占用估计(上):你的卡玩得动7B模型吗?
本文介绍了大模型训练时显存占用的估算方法。首先明确了模型参数数量、存储类型及单位换算等基础知识,指出7B模型采用fp16存储需要14GB显存。训练时显存主要消耗于模型参数(2Ψ)、梯度(2Ψ)和优化器状态(12Ψ),总计16Ψ,因此7B模型全量微调需要112GB显存。其次介绍了ZeRO优化技术,通过分阶段分摊显存占用,可将显存需求降低至1/4到1/N_d。最后指出中间激活值也是显存消耗大头,其占用与batch size、序列长度等参数相关,并预告了下篇将详细分析激活值的显存估算方法。
2025-08-13 10:23:42
1037
原创 【Attention系列】4. 基于KV cache的自回归解码中MHA相关运算量
本文分析了自回归解码中多头注意力机制(MHA)的运算量计算。在Prefill阶段,计算Q、K、V需6BTH²运算量,注意力计算为4BT²H+4BT²N,多头拼接线性变换为2BTH²。Decode阶段将序列长度T置为1,运算量相应减少:QKV计算为6BH²,注意力计算为4BTH+4BTN,线性变换为2BH²。通过矩阵乘法运算量公式2mnp,详细拆解了各步骤计算过程,为理解Transformer解码过程的计算复杂度提供了量化依据。
2025-08-05 22:15:12
724
原创 【Attention系列】3. 答读者问,为什么没有Q Cache却要计算Q
本文深入探讨了基于KV Cache的自回归解码机制,重点解答了两个关键问题:1)为什么只缓存KV而不缓存Q;2)为什么仍需计算Q。
2025-08-05 21:40:06
967
原创 【Attention系列】2. 一文详解基于KV Cache的自回归解码
本文详细解析了基于KV Cache的自回归解码机制,重点介绍了如何通过缓存键值对(KV Cache)来优化大语言模型的自回归生成过程。文章首先回顾了自回归解码的基本流程,然后拆解了相关计算,指出KV Cache可以避免重复计算。新token只需要计算与自身相关的部分,其他token的表征可以直接复用缓存结果。最后总结出KV Cache解码的两个阶段:预填充阶段生成初始KV缓存,解码阶段利用缓存高效生成后续token。这种方法能显著提升推理效率,是大模型推理加速的关键技术之一。
2025-07-19 10:28:40
1150
原创 【Attention系列】1.多头自注意力机制MHA
本文系统介绍了Transformer中的自注意力机制。首先解析了Scaled Dot-Product Attention的计算过程,包括相关性计算、缩放、softmax归一化和加权求和四个步骤。随后讨论了Decoder中的mask机制及其实现方式,确保自回归生成时仅关注当前及历史token。最后,重点阐述了多头注意力(MHA)的核心思想:通过多组独立的自注意力模块(每个头使用不同的线性变换矩阵)并行计算,最后拼接输出以增强模型表达能力。
2025-07-18 23:55:57
943
原创 ACL 2020 | 特定风格标题生成《Hooks in the headline》论文阅读笔记
今天我们来分享一个带风格的标题生成的经典模型TitleStylist,该模型是针对SHG任务提出的,它可以生成相关、通顺且具有风格的标题,其中风格主要包括三种:幽默、浪漫、标题党。
2022-07-07 19:15:00
619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2