- 博客(32)
- 收藏
- 关注
原创 强化学习中参数的设置
通过生成多个候选答案,基于奖励函数对它们进行排序,学习相对优势而非绝对分数,这样更稳定。:bf16比fp16数值范围更大,训练更稳定;梯度检查点可大幅减少显存占用。仅训练0.03%的参数,大幅降低显存和计算需求。
2026-01-08 22:01:45
570
原创 多模态大模型中的模态连接部分方法
在多模态大模型中,视觉编码器(如ViT、SigLIP)负责将图像转换为特征,而大语言模型(LLM)负责理解和生成文本。它们之间的高效“连接器”是技术核心,决定了信息如何传递与融合。下表概述了主流的连接方法及其特点。连接器类型核心思想代表模型关键优势适用场景将视觉特征投影后与文本嵌入,作为LLM的输入架构,易于实现,无需修改LLM核心结构通用多模态任务,追求简洁架构在LLM的Transformer层中插入,让文本查询动态关注视觉特征。
2026-01-08 20:37:57
154
原创 熵和交叉熵和KL散度
理解熵和交叉熵的关键在于区分“事物本身的不确定性”和“我们对事物的预测与真实情况的差异”。下面我们通过一个天气预报的比喻来直观理解。
2026-01-06 20:33:11
352
原创 Flash Attention和KV Cache等加速方法
KV Cache 是大语言模型在生成文本时用来加速的一种缓存技术。它避免了重复计算,让模型生成每个新token时快得多。
2026-01-06 16:28:18
747
原创 Qwen,DeepSeek,Hunyuan等多种大模型的技术解读
双模式统一框架:无需在不同模型(如GPT-4o和QwQ-32B)之间切换思维预算控制:用户可以根据任务复杂度自适应分配计算资源,平衡延迟和性能效率突破:Qwen3-MoE基础模型仅使用Qwen2.5 dense基础模型10%的激活参数就能达到相当性能性能提升:Qwen3-1.7B/4B/8B/14B/32B-Base的性能分别相当于Qwen2.5-3B/7B/14B/32B/72B-Base。
2026-01-05 23:34:46
907
原创 四大子词分词算法详解
算法方向合并准则优点代表模型BPE自底向上频率最高简单高效GPT-2BBPE自底向上频率最高(字节级)多语言友好WordPiece自底向上似然最大更优的概率模型BERTUnigram自顶向下损失最小多种分词,可计算概率T5, XLNet。
2026-01-03 11:16:38
820
原创 Batch Normalization和Layer Normalization和RMS Normalization
在batch维度上计算统计量每个特征通道独立标准化适用于CNN,但依赖batch大小训练和推理时行为不同(需要moving average)在特征维度上计算统计量每个样本独立标准化适用于RNN、Transformer,不依赖batch大小训练和推理行为一致也在特征维度上,但不减去均值计算更简单高效常用于大型语言模型(如LLaMA)Re-centering假设:数据分布已经中心化方法token1结果token2结果计算维度Layer Norm每个token内部。
2026-01-03 11:03:49
1016
原创 Transformer和大语言模型演进详解
模型数据规模数据特点BERT33亿词书籍+维基百科GPT-3300B tokens高质量网页+书籍LLaMA 11.4T tokens纯公开数据LLaMA 315T+ tokens多语言+代码Qwen 27T tokens中英双语优化DeepSeek-V314.8T tokens代码+数学增强。BERT变体:RoBERTa(去除NSP,更大batch)、ALBERT(参数共享)、DeBERTa(解耦注意力)LLaMA/Qwen/DeepSeek:RMSNorm(前归一化),训练更稳定。
2025-12-23 20:25:28
724
原创 LayerNorm
LN(x)=γx−μσ2+ϵ+βLN(x) = \gamma \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \betaLN(x)=γσ2+ϵx−μ+β
2025-12-23 16:51:18
195
原创 MHA、MQA 和 GQA 注意力机制
2. MQA (Multi-Query Attention - 多查询注意力)3. GQA (Grouped-Query Attention - 分组查询注意力)核心区别特性MHAMQAGQAQ投影数量h个h个h个K投影数量h个1个g个V投影数量h个1个g个参数量最多最少中等推理速度最慢最快中等表达能力最强最弱中等具体数值例子让我用一个简化的例子演示,假设:输入矩阵 X:示例 1: MHA (2个
2025-12-21 23:49:45
564
原创 DeepSpeed解读
DeepSpeed 是由微软开发的一个深度学习优化库,专门用于加速大规模模型的训练。它通过多种优化技术,使得在有限的硬件资源上训练超大规模模型成为可能。DeepSpeed 的核心创新是技术,它通过消除数据并行训练中的内存冗余,大幅降低了训练大模型所需的显存。
2025-12-20 14:12:39
613
原创 GSPO算法学习
GSPO将"单位不匹配"问题解决了——奖励是序列级别的,重要性采样也应该是序列级别的。三个关键点:匹配原则:Reward是给整个序列的 → 优化也应该基于整个序列理论正确:使用序列概率比率 → 符合重要性采样原理实际稳定:所有token平等对待 → 避免噪声累积和模型崩溃Token级别的权重πyt∣πoldyt∣πoldyt∣...πyt∣...本质上是噪声,不是有效的分布校正!
2025-12-19 15:35:57
823
原创 DAPO算法学习与数值示例
假设我们有一个数学问题:“计算 2+3 等于多少?”训练参数:模型生成4个回答及其奖励:如果准确率是100%或0%,则丢弃并重新采样!步骤4: 计算策略梯度假设某个token的概率:对于o₁中的某个token (Â₁ = +1.0):Token级损失计算:步骤5: 总体损失(Token-Level)DAPO使用token级别而非样本级别:步骤6: 超长惩罚塑形如果某个回答长度为95 tokens(接近限制):🔄 DAPO vs GRPO 对比DAPO vs GRPO 详细对比核心差
2025-12-19 15:33:39
712
原创 强化学习中的GRPO算法讲解
GRPO是一种用于大语言模型对齐的强化学习算法,由DeepSeek团队提出。它是RLHF(Reinforcement Learning from Human Feedback)的一种高效变体。
2025-12-18 16:23:52
902
原创 强化学习中的DPO算法详解
DPO(直接偏好优化)是一种用于根据人类偏好优化语言模型的方法,由Rafailov等人在2023年提出。它是RLHF(从人类反馈中强化学习)的一种替代方法,但更简单、更稳定。
2025-12-18 14:05:59
1069
原创 PPO强化学习算法详解
PPO是一种策略梯度方法,由OpenAI在2017年提出。在更新策略时,不要让新策略偏离旧策略太远,这样训练更稳定。KL散度KLπold∣∣πnew∑aπolda∣slogπolda∣sπnewa∣sKLπold∣∣πnewa∑πolda∣slogπnewa∣sπolda∣s直观理解KL散度越大 → 新旧策略差异越大。
2025-12-17 11:03:33
640
原创 Qwen3-vl的源码解读
qwen的attention直接调用了函数:torch.nn.functional.scaled_dot_product_attention()关于视频的处理是使用了Qwen3VLVideoProcessor继承于BaseVideoProcessor。其中语言模型比较重要的是Qwen3VLTextDecoderLayer。使用cls实例化模型。
2025-12-15 16:40:37
130
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2