自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 手撕transformer——菜鸡的自我救赎

我之前从来没有认真对待过,直到需要看一些源码,这个欠的债一直在攻击我!transformer因为是对文本进行处理,不是CV的batch norm,而是使用了layer Norm。具体而言它是对数据的所有特征维度进行Norm,因为序列长度不一致。旋转位置编码是对QK向量进行编码,不是对原始的embedding向量进行编码。现在更多的是使用旋转位置编码,旋转位置编码可以在保证向量模长不变的情况下,让他们计算。然后是编码器层,编码器层是刚刚的模块进行组合并加入残差连接等trick。编码器是由编码器层堆叠而来的。

2025-12-10 15:04:27 238

原创 PPO与GRPO算法对比及详细解析

是强化学习中常用的一种策略优化方法,尤其在大模型训练中应用广泛。其核心思想是通过限制新旧策略之间的变化幅度,保证训练过程的稳定性。

2025-10-14 12:20:35 799

原创 为什么 CoT 能提升大模型的推理能力?

举个例子,假设训练数据中 A 与 C 的共现概率极低,那么模型在没有 CoT 的情况下,面对需要同时推断出 A 和 C 的情境时,表现往往不佳。但如果存在一个中间变量 B,且训练数据中 A 与 B、B 与 C 的共现概率都较高,CoT 就能引导模型先推理到 B,再由 B 推理到 C,从而成功实现 A 与 C 的关联。当训练数据由强相关变量形成的局部重叠集群时,模型可以通过串联这些局部推断,间接学习到那些在训练中很少直接共现的变量之间的关系,从而弥补“推理缺口”(reasoning gap)。

2025-07-19 00:09:40 1009

原创 ZeRO3 技术原理

摘要: DeepSpeed ZeRO3通过全面切分模型参数、梯度与优化器状态,显著降低单卡显存占用。每张GPU仅保留本地数据分片,通过all_gather临时聚合参数进行前向计算,反向传播使用reduce_scatter同步梯度。以4卡为例,显存占用从17GB降至5GB。通信操作(如all_gather、reduce_scatter)伴随短暂全量数据缓存,结合Offload策略可进一步优化显存。该方案支持超大模型训练,兼顾效率与资源利用率。

2025-07-04 15:11:42 905

原创 DeepSpeed大模型训练加速

DeepSpeed是微软开发的深度学习优化库,专注于大模型训练加速。其核心技术包括:1) ZeRO优化器,通过分片优化器状态、梯度和参数,将内存需求降低至1/16;2) Sparse Attention,通过固定模式或动态稀疏化将注意力计算复杂度从O(n²)降至O(n),速度提升3-5倍;3) 1 bit Adam,通过梯度量化减少5倍通信量,训练速度提升3.4倍。这些技术显著提升了大规模模型训练的效率和可扩展性。

2025-06-24 11:36:33 991

原创 大模型分布式训练方法

大模型分布式训练主要采用四种并行方法:数据并行通过多设备处理不同数据并同步梯度;模型并行将网络层拆分到不同设备;流水线并行通过微批次填充提升设备利用率;张量并行对矩阵运算分块处理。实际应用中常组合这些方法,形成多层次混合并行策略,包括基础数据并行、纵向模型/流水线并行以及优化单层效率的张量并行,总并行度为各维度并行度的乘积。这些方法协同解决了大模型训练中的计算效率和显存限制问题。

2025-06-12 20:55:49 674

原创 SFT过程中如何判断是否过拟合

在SFT(监督微调)过程中,判断模型是否过拟合可以通过以下几种方法:首先,观察训练和评测数据的loss变化,若训练loss持续下降而评测loss上升,则可能过拟合。其次,通过模型输出判断,如模型在回答不同问题时频繁给出与训练数据相似的错误答案,可能表明过拟合。最后,通过调整训练参数(如减少epoch)并观察评测loss的变化,若loss下降则可能意味着过拟合。这些方法有助于及时发现并调整模型,避免过拟合现象。

2025-05-22 16:52:28 196

原创 记录一次Windows文件路径复制产生的诡异BUG

在微调大模型时,作者遇到了一个诡异的问题:脚本无法识别本地数据路径,反而自动从ModelScope下载数据。经过仔细排查,发现问题出在路径开头隐藏的Unicode字符U+202A(LRO,Left-to-Right Override),该字符用于控制文本方向,但在文件路径中会导致异常。这种字符通常从Windows文件夹属性中复制路径时引入,肉眼不可见,却会引发程序错误。作者提醒开发者警惕此类Unicode控制字符,避免类似问题。

2025-05-13 19:05:20 485

原创 使用SWIFT微调大模型完成回归任务

传统大语言模型通过预测下一个token的概率来生成文本,其损失函数通常采用softmax分类器,这使得它们难以直接处理回归任务(需要输出连续数值)。然而,大模型具备强大的高维特征编码能力,我们可以利用预训练模型作为特征提取器,通过微调适配回归任务,从而获得优异的性能表现。• 训练方式:取最后一个token的隐藏状态(1,896),使用RMS损失函数计算回归结果。本示例使用大模型计算句子相似度,输出为0-1之间的连续相似度分数。• 类型:Decoder-only架构(24层堆叠)假设输入三个TOKEN。

2025-05-07 02:44:03 1279

原创 记录一次使用C++与matlab混合编程经历

C++与matlab进行联合编程。由于我需要使用fftw库进行编程,因此我需要在Visual Studio中进行编译。如果程序没有使用额外的库,可以直接在Matlab的命令窗口中进行编译,这样就无需配置Visual Studio,更加方便。需要注意的是,使用到的.dll文件需要复制到.mexw64C文件的同级目录中。这样,我们就能够直接调用该函数(函数名即为mexw64C文件的名称)进行编程。

2024-01-03 11:26:35 1828 1

原创 OpenCV

OpenCV学习笔记

2022-04-17 10:03:31 4047

原创 简单学习HTML的学习笔记

HTML的学习笔记简单贴上学习HTML的时候的全部标签代码代码简单贴上学习HTML的时候的全部标签代码代码下面展示一些 内联代码片。<!DOCTYPE html><html lang="zh-CN"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport

2022-02-10 12:46:04 593

原创 记录一次c++重载等号时遇到的问题

记录一次c++重载等号时遇到的问题文章目录记录一次c++重载等号时遇到的问题一、遇到的问题?二、解决办法加上const关键字一、遇到的问题?我用c++重载等号时写的代码是Set Set::operator =( Set &a){ number=a.number; for(int i=0;i<number;i++) { data[i]=a.data [i]; } return *this;}可是当我写完时,遇到的报错是118 4 F:\c++\上机\第四周上机

2021-04-01 18:23:37 323

matlab-线性插值与三次样条插值

matlab代码对线性插值的简单应用

2023-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除