ekkoalex-优快云博客

原创强化学习中参数的设置

通过生成多个候选答案，基于奖励函数对它们进行排序，学习相对优势而非绝对分数，这样更稳定。：bf16比fp16数值范围更大，训练更稳定；梯度检查点可大幅减少显存占用。仅训练0.03%的参数，大幅降低显存和计算需求。

2026-01-08 22:01:45 570

在多模态大模型中，视觉编码器（如ViT、SigLIP）负责将图像转换为特征，而大语言模型（LLM）负责理解和生成文本。它们之间的高效“连接器”是技术核心，决定了信息如何传递与融合。下表概述了主流的连接方法及其特点。连接器类型核心思想代表模型关键优势适用场景将视觉特征投影后与文本嵌入，作为LLM的输入架构，易于实现，无需修改LLM核心结构通用多模态任务，追求简洁架构在LLM的Transformer层中插入，让文本查询动态关注视觉特征。

2026-01-08 20:37:57 156

原创熵和交叉熵和KL散度

理解熵和交叉熵的关键在于区分“事物本身的不确定性”和“我们对事物的预测与真实情况的差异”。下面我们通过一个天气预报的比喻来直观理解。

2026-01-06 20:33:11 352

原创 Flash Attention和KV Cache等加速方法

KV Cache 是大语言模型在生成文本时用来加速的一种缓存技术。它避免了重复计算,让模型生成每个新token时快得多。

2026-01-06 16:28:18 747

原创 Qwen,DeepSeek,Hunyuan等多种大模型的技术解读

双模式统一框架：无需在不同模型（如GPT-4o和QwQ-32B）之间切换思维预算控制：用户可以根据任务复杂度自适应分配计算资源，平衡延迟和性能效率突破：Qwen3-MoE基础模型仅使用Qwen2.5 dense基础模型10%的激活参数就能达到相当性能性能提升：Qwen3-1.7B/4B/8B/14B/32B-Base的性能分别相当于Qwen2.5-3B/7B/14B/32B/72B-Base。

2026-01-05 23:34:46 909

原创 Qwen3-vl使用到的Timemaker方法

所有代表second stoken，每隔108就出现一次。文本和视觉的token。

2026-01-05 23:07:47 224

原创四大子词分词算法详解

算法方向合并准则优点代表模型BPE自底向上频率最高简单高效GPT-2BBPE自底向上频率最高(字节级)多语言友好WordPiece自底向上似然最大更优的概率模型BERTUnigram自顶向下损失最小多种分词，可计算概率T5, XLNet。

2026-01-03 11:16:38 823

原创 Batch Normalization和Layer Normalization和RMS Normalization

在batch维度上计算统计量每个特征通道独立标准化适用于CNN，但依赖batch大小训练和推理时行为不同（需要moving average）在特征维度上计算统计量每个样本独立标准化适用于RNN、Transformer，不依赖batch大小训练和推理行为一致也在特征维度上，但不减去均值计算更简单高效常用于大型语言模型（如LLaMA）Re-centering假设：数据分布已经中心化方法token1结果token2结果计算维度Layer Norm每个token内部。

2026-01-03 11:03:49 1016

原创 RAG技术路线

从基础到高级的RAG (Retrieval-Augmented Generation) 技术学习路径。

2025-12-27 16:17:54 495

原创 Transformer和大语言模型演进详解

模型数据规模数据特点BERT33亿词书籍+维基百科GPT-3300B tokens高质量网页+书籍LLaMA 11.4T tokens纯公开数据LLaMA 315T+ tokens多语言+代码Qwen 27T tokens中英双语优化DeepSeek-V314.8T tokens代码+数学增强。BERT变体：RoBERTa（去除NSP，更大batch）、ALBERT（参数共享）、DeBERTa（解耦注意力）LLaMA/Qwen/DeepSeek：RMSNorm（前归一化），训练更稳定。

2025-12-23 20:25:28 724

原创 LayerNorm

LN(x)=γx−μσ2+ϵ+βLN(x) = \gamma \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \betaLN(x)=γσ2+ϵx−μ+β

2025-12-23 16:51:18 195

原创 MHA、MQA 和 GQA 注意力机制

2. MQA (Multi-Query Attention - 多查询注意力)3. GQA (Grouped-Query Attention - 分组查询注意力)核心区别特性MHAMQAGQAQ投影数量h个h个h个K投影数量h个1个g个V投影数量h个1个g个参数量最多最少中等推理速度最慢最快中等表达能力最强最弱中等具体数值例子让我用一个简化的例子演示,假设:输入矩阵 X:示例 1: MHA (2个

2025-12-21 23:49:45 564

原创 KL散度的数值计算示例

KL散度是用来衡量两个概率分布之间差异的指标。它告诉我们：如果用分布Q来近似分布P，会损失多少信息。

2025-12-21 23:49:23 500

原创 Rope旋转位置编码解读

RoPE通过旋转矩阵将位置信息编码到向量中。对于位置m和维度索引i，使用角度mθiθi10000−2id。

2025-12-20 14:22:13 866

原创 DeepSpeed解读

DeepSpeed 是由微软开发的一个深度学习优化库,专门用于加速大规模模型的训练。它通过多种优化技术,使得在有限的硬件资源上训练超大规模模型成为可能。DeepSpeed 的核心创新是技术,它通过消除数据并行训练中的内存冗余,大幅降低了训练大模型所需的显存。

2025-12-20 14:12:39 614

原创 GSPO算法学习

GSPO将"单位不匹配"问题解决了——奖励是序列级别的，重要性采样也应该是序列级别的。三个关键点：匹配原则：Reward是给整个序列的 → 优化也应该基于整个序列理论正确：使用序列概率比率 → 符合重要性采样原理实际稳定：所有token平等对待 → 避免噪声累积和模型崩溃Token级别的权重πyt∣πoldyt∣πoldyt∣...πyt∣...本质上是噪声，不是有效的分布校正！

2025-12-19 15:35:57 823

原创 DAPO算法学习与数值示例

假设我们有一个数学问题：“计算 2+3 等于多少？”训练参数：模型生成4个回答及其奖励：如果准确率是100%或0%，则丢弃并重新采样！步骤4: 计算策略梯度假设某个token的概率：对于o₁中的某个token (Â₁ = +1.0):Token级损失计算：步骤5: 总体损失（Token-Level）DAPO使用token级别而非样本级别：步骤6: 超长惩罚塑形如果某个回答长度为95 tokens（接近限制）：🔄 DAPO vs GRPO 对比DAPO vs GRPO 详细对比核心差

2025-12-19 15:33:39 712

原创强化学习中的GRPO算法讲解

GRPO是一种用于大语言模型对齐的强化学习算法,由DeepSeek团队提出。它是RLHF(Reinforcement Learning from Human Feedback)的一种高效变体。

2025-12-18 16:23:52 902

原创强化学习中的DPO算法详解

DPO（直接偏好优化）是一种用于根据人类偏好优化语言模型的方法，由Rafailov等人在2023年提出。它是RLHF（从人类反馈中强化学习）的一种替代方法，但更简单、更稳定。

2025-12-18 14:05:59 1070

原创 PPO强化学习算法详解

PPO是一种策略梯度方法，由OpenAI在2017年提出。在更新策略时，不要让新策略偏离旧策略太远，这样训练更稳定。KL散度KLπold∣∣πnew∑aπolda∣slog⁡πolda∣sπnewa∣sKLπold∣∣πnewa∑πolda∣slogπnewa∣sπolda∣s直观理解KL散度越大 → 新旧策略差异越大。

2025-12-17 11:03:33 640

原创关于transformer的注意力权重可视化

【代码】关于transformer的注意力权重可视化。

2025-12-17 10:52:06 80

原创 Transformer的注意力权重的理解

【代码】Transformer的注意力权重的理解。

2025-12-16 20:33:29 108

原创 ViT的demo实现与解读

ViT的demo实现与解读

2025-12-16 14:51:47 278

原创 Qwen3-vl的源码解读

qwen的attention直接调用了函数：torch.nn.functional.scaled_dot_product_attention()关于视频的处理是使用了Qwen3VLVideoProcessor继承于BaseVideoProcessor。其中语言模型比较重要的是Qwen3VLTextDecoderLayer。使用cls实例化模型。

2025-12-15 16:40:37 130

原创 Lora的源码

lora源码

2025-12-14 14:25:42 180

原创 transformer的demo实现

【代码】transformer的demo实现。

2025-12-14 11:01:08 115

原创 huggingface的bert简单实现

bert的简单实现

2022-12-26 11:24:14 516

原创北航操作系统实验lab

实验

2022-11-14 19:26:29 2198

原创第四次作业：猫狗大战挑战赛

第四次作业

2022-10-22 14:34:49 425 2

原创软件工程第三次作业

软件工程第三次作业

2022-10-15 21:26:24 277

原创 pytorch练习之梯度下降

pytorch

2022-10-08 20:46:42 307

原创第二次作业：深度学习基础

软件工程第二次作业

2022-10-01 11:23:55 322

ekkoalex的博客