pika2002-优快云博客

原创手撕transformer——菜鸡的自我救赎

我之前从来没有认真对待过，直到需要看一些源码，这个欠的债一直在攻击我！transformer因为是对文本进行处理，不是CV的batch norm，而是使用了layer Norm。具体而言它是对数据的所有特征维度进行Norm，因为序列长度不一致。旋转位置编码是对QK向量进行编码，不是对原始的embedding向量进行编码。现在更多的是使用旋转位置编码，旋转位置编码可以在保证向量模长不变的情况下，让他们计算。然后是编码器层，编码器层是刚刚的模块进行组合并加入残差连接等trick。编码器是由编码器层堆叠而来的。

2025-12-10 15:04:27 238

原创 PPO与GRPO算法对比及详细解析

是强化学习中常用的一种策略优化方法，尤其在大模型训练中应用广泛。其核心思想是通过限制新旧策略之间的变化幅度，保证训练过程的稳定性。

2025-10-14 12:20:35 799

原创为什么 CoT 能提升大模型的推理能力？

举个例子，假设训练数据中 A 与 C 的共现概率极低，那么模型在没有 CoT 的情况下，面对需要同时推断出 A 和 C 的情境时，表现往往不佳。但如果存在一个中间变量 B，且训练数据中 A 与 B、B 与 C 的共现概率都较高，CoT 就能引导模型先推理到 B，再由 B 推理到 C，从而成功实现 A 与 C 的关联。当训练数据由强相关变量形成的局部重叠集群时，模型可以通过串联这些局部推断，间接学习到那些在训练中很少直接共现的变量之间的关系，从而弥补“推理缺口”（reasoning gap）。

2025-07-19 00:09:40 1009

原创 ZeRO3 技术原理

摘要： DeepSpeed ZeRO3通过全面切分模型参数、梯度与优化器状态，显著降低单卡显存占用。每张GPU仅保留本地数据分片，通过all_gather临时聚合参数进行前向计算，反向传播使用reduce_scatter同步梯度。以4卡为例，显存占用从17GB降至5GB。通信操作（如all_gather、reduce_scatter）伴随短暂全量数据缓存，结合Offload策略可进一步优化显存。该方案支持超大模型训练，兼顾效率与资源利用率。

2025-07-04 15:11:42 905

原创 DeepSpeed大模型训练加速

DeepSpeed是微软开发的深度学习优化库，专注于大模型训练加速。其核心技术包括：1) ZeRO优化器，通过分片优化器状态、梯度和参数，将内存需求降低至1/16；2) Sparse Attention，通过固定模式或动态稀疏化将注意力计算复杂度从O(n²)降至O(n)，速度提升3-5倍；3) 1 bit Adam，通过梯度量化减少5倍通信量，训练速度提升3.4倍。这些技术显著提升了大规模模型训练的效率和可扩展性。

2025-06-24 11:36:33 991

原创大模型分布式训练方法

大模型分布式训练主要采用四种并行方法：数据并行通过多设备处理不同数据并同步梯度；模型并行将网络层拆分到不同设备；流水线并行通过微批次填充提升设备利用率；张量并行对矩阵运算分块处理。实际应用中常组合这些方法，形成多层次混合并行策略，包括基础数据并行、纵向模型/流水线并行以及优化单层效率的张量并行，总并行度为各维度并行度的乘积。这些方法协同解决了大模型训练中的计算效率和显存限制问题。

2025-06-12 20:55:49 674

原创 SFT过程中如何判断是否过拟合

在SFT（监督微调）过程中，判断模型是否过拟合可以通过以下几种方法：首先，观察训练和评测数据的loss变化，若训练loss持续下降而评测loss上升，则可能过拟合。其次，通过模型输出判断，如模型在回答不同问题时频繁给出与训练数据相似的错误答案，可能表明过拟合。最后，通过调整训练参数（如减少epoch）并观察评测loss的变化，若loss下降则可能意味着过拟合。这些方法有助于及时发现并调整模型，避免过拟合现象。

2025-05-22 16:52:28 196

原创记录一次Windows文件路径复制产生的诡异BUG

在微调大模型时，作者遇到了一个诡异的问题：脚本无法识别本地数据路径，反而自动从ModelScope下载数据。经过仔细排查，发现问题出在路径开头隐藏的Unicode字符U+202A（LRO，Left-to-Right Override），该字符用于控制文本方向，但在文件路径中会导致异常。这种字符通常从Windows文件夹属性中复制路径时引入，肉眼不可见，却会引发程序错误。作者提醒开发者警惕此类Unicode控制字符，避免类似问题。

2025-05-13 19:05:20 485

原创使用SWIFT微调大模型完成回归任务

传统大语言模型通过预测下一个token的概率来生成文本，其损失函数通常采用softmax分类器，这使得它们难以直接处理回归任务（需要输出连续数值）。然而，大模型具备强大的高维特征编码能力，我们可以利用预训练模型作为特征提取器，通过微调适配回归任务，从而获得优异的性能表现。• 训练方式：取最后一个token的隐藏状态(1,896)，使用RMS损失函数计算回归结果。本示例使用大模型计算句子相似度，输出为0-1之间的连续相似度分数。• 类型：Decoder-only架构（24层堆叠）假设输入三个TOKEN。

2025-05-07 02:44:03 1279

pika2002的博客

原创手撕transformer——菜鸡的自我救赎

原创 PPO与GRPO算法对比及详细解析

原创为什么 CoT 能提升大模型的推理能力？

原创 ZeRO3 技术原理

原创 DeepSpeed大模型训练加速

原创大模型分布式训练方法

原创 SFT过程中如何判断是否过拟合

原创记录一次Windows文件路径复制产生的诡异BUG

原创使用SWIFT微调大模型完成回归任务

原创记录一次使用C++与matlab混合编程经历

原创 OpenCV

原创简单学习HTML的学习笔记

原创记录一次c++重载等号时遇到的问题

matlab-线性插值与三次样条插值

空空如也