- 博客(28)
- 资源 (2)
- 收藏
- 关注
原创 强化学习系列 -- TRL中的12种偏好优化损失函数全面解析与对比
本文介绍了TRL(Transformer Reinforcement Learning)库中用于优化语言模型偏好的多种损失函数,包括Sigmoid、Hinge、IPO、EXO_pair等。Sigmoid损失函数通过平滑梯度优化偏好,Hinge损失函数设定明确的边界避免过度优化,IPO损失函数通过隐式方式控制偏好强度,而EXO_pair则引入标签平滑缓解极端偏好偏差。每种损失函数各有优缺点,如Sigmoid平滑但可能过拟合,Hinge边界明确但对噪声敏感。文章还通过公式解析和代码示例展示了不同损失函数的实现原
2025-07-04 10:58:02
677
原创 Shared FFN(共享前馈网络)作用
本文探讨了MoE结构中SharedFFN的作用。MoE层通过路由器选择部分专家执行推理,在保持强大学习能力的同时减少计算量。SharedFFN作为全局共享通路,能提升训练稳定性,在早期gating不稳定时提供基础表达能力;提高参数利用率,避免部分token缺乏专家支持;增强泛化能力,作为公共知识库处理长尾样本;并稳定梯度传播。实际应用如GLaM和DeepSpeed MoE都采用SharedFFN,虽增加少量计算开销,但仍比密集FFN更高效。
2025-07-25 16:12:16
263
原创 Liger GRPO 与 TRL 的相遇
Liger优化了TRL的GRPO训练器,将内存占用降低40%且不影响模型性能。该技术通过分块处理logits计算来减少峰值内存使用,并新增了对FSDP和PEFT的支持,使多GPU扩展更加便捷。实验表明,在Qwen3-0.6B模型上,Liger在大批次训练时可显著提升内存效率,同时保持训练质量。此外,结合vLLM服务器可进一步加速文本生成过程。这些改进使GRPO成为比PPO更高效的强化学习微调方案,特别适用于数学推理等可验证性任务。
2025-07-23 09:41:10
810
原创 大模型的基础结构知识串联
本文介绍了Transformer架构中的几个关键组件与技术改进。FFN是Transformer中的两层前馈神经网络,用于处理注意力后的token。RMSNorm是一种简化的LayerNorm,仅对输入的均方值进行归一化,计算更快且效果相近。MoE是一种稀疏激活的模块化结构,通过门控网络动态选择多个专家FFN处理输入,实现模型扩展与高效计算。MTP方法通过同时预测多个未来token提升训练效率,并采用内存优化策略。SwiGLU是一种激活函数,结合了Swish和GLU的特点。这些技术在保持模型性能的同时,显著提
2025-07-21 11:56:24
1041
原创 大模型 Attention种类
摘要:本文系统介绍了注意力机制及其变体,包括Self-Attention、多头注意力(MHA)、多查询注意力(MQA)和分组查询注意力(GQA)。重点分析了多头潜在注意力(MLA)的创新设计,通过低秩联合压缩技术减少KV缓存,在Deepseek-v3中采用1/4-1/8维度压缩策略,平衡了内存占用与模型性能。不同注意力机制在查询矩阵共享方式和KV缓存处理上存在关键差异,MLA通过分离压缩KV和Q矩阵并引入旋转位置编码,实现了高效的位置感知表示。
2025-07-21 10:59:21
424
原创 大模型位置编码与输入长度扩增
本文介绍了位置编码在Transformer模型中的重要性,重点分析了RoPE(旋转位置编码)及其改进方法Yarn。RoPE通过旋转矩阵实现相对位置编码,被广泛应用于现代大模型。而Yarn通过位置插值和动态频率缩放技术,有效扩展了RoPE的最大长度(如从4k扩展到128k),解决了直接外推导致的角度不稳定问题。该方法被用于LLaMA-2等模型的长度扩展,具有轻量高效的特点。文章详细阐述了Yarn的数学原理和实现步骤,包括线性插值和NTK感知的频率缩放机制。
2025-07-21 10:28:47
597
原创 Qwen系列的模型 config 参数理解
主要用于在 不重训模型 的情况下,将支持的上下文长度 从例如 32K 提升到 128K、甚至 1M。pos_emb = rope_theta ** (i / head_dim) → 变为缩放版本。↘---------------------------↗ (两个矩阵)输出的lm_head的weight时embedding layer的转置。
2025-07-17 11:46:56
2312
原创 使用 TRL 中的 GRPO 进行 LLM 推理的后训练
本文介绍了使用群体相对策略优化(GRPO)对大型语言模型进行后训练的方法。GRPO是一种强化学习技术,特别适用于解决需要扩展推理的复杂任务如数学问题。文章详细展示了从安装依赖、加载数据集到模型训练的全过程,使用Qwen2-0.5B-Instruct作为基线模型,并配置LoRA进行高效微调。通过定义格式奖励和准确性奖励函数,指导模型生成带有<think>和<answer>标签的结构化推理过程。实验结果表明,该方法能有效提升模型的推理能力,尽管受限于模型规模和训练数据量,但展现了良好的应
2025-07-10 11:07:47
1618
原创 利用 TRL 中的共置 vLLM 释放效率
摘要:TRL最新版本支持将vLLM与GRPO训练共置,显著提升大语言模型训练效率。传统服务器模式需要单独GPU运行vLLM推理,导致训练和生成阶段的GPU资源闲置交替出现。新方案通过vLLM外部启动器实现训练和推理共享同一GPU,采用内存睡眠机制管理资源分配,在Qwen2.5-72B等大模型训练中实现1.26倍加速,同时保持模型性能。该方案兼容DeepSpeed ZeRO Stage3优化,支持Tensor Parallelism和数据并行,但需注意vLLM特定版本的内存管理问题。实验表明,共置模式在1.5
2025-07-10 10:34:50
1113
原创 Deepseek R1 是如何训练的
DeepSeekAI发布DeepSeek-R1开放模型,采用创新的组相对策略优化(GRPO)和多阶段训练方法。GRPO是一种强化学习算法,通过组得分估计基线替代传统PPO中的价值函数模型,降低了计算开销。模型训练分为四个阶段:基础微调、推理强化学习、拒绝采样微调和助人强化学习,最终在数学推理等任务上达到与OpenAI-o1相当的水平。该研究还发现基于规则的奖励比复杂奖励模型更有效,且预微调能提升训练稳定性。
2025-07-09 15:27:31
620
原创 姿态生成-pix2pix
这是姿态生成的第一篇博客;先介绍Pix2Pix 因为开始想介绍一下CGAN基础的架构,而姿态生成现在主要基于CGAN的思想而构建的模型,现在Transfromer也在尝试解决姿态生成的问题;也为后续介绍的姿态生成算法打一下基础;同时第一篇姿态生成的博客主要是拿pix2pix举例科普一下CGAN算法的思想;最后也会介绍一下对姿态生成的一些看法;姿态生成分为头部姿态和肢体姿态;姿态生成方案可分为一阶段和二阶段;一阶段生成输入是语音,输出是姿态的视频;二阶段分别是二阶段生成。
2025-07-07 10:03:52
902
原创 Effective Python(阅读笔记) --Pythonic 方式思考
Effective Python(阅读笔记) --Pythonic 方式思考Pythonic 描述符合特定风格的代码;既不是非常严密的规范,也不是由编译器强加给开发者的规则,而是python工程师使用python语言协同工作的过程中逐渐养成的习惯;Python开发者不喜欢复杂的事物,他们崇尚直观,简洁而又易读的代码(python 解释器中输入import this)1. 确认自己所用的Python版本现在只有python3处于活跃状态,python2已经不再维护;查看python版本python
2025-07-07 10:01:34
340
原创 DPO训练中的logit scale 与 reward shift 偏置问题以及可能的解决方案
摘要 Logit Scale Bias和Reward Shift Bias是影响DPO训练稳定性的两类关键问题。Logit Scale Bias源于模型间logit尺度差异导致概率比计算偏差,表现为训练过激或钝化;Reward Shift Bias则由批次间奖励均值偏移引发,导致训练波动和收敛困难。二者主要来源于模型初始化差异、温度参数不一致及数据分布不均等因素。解决方案包括BCO-Pair方法、温度控制、delta调整和归一化损失等技术,以稳定训练过程并提升模型性能。
2025-07-03 11:54:49
2003
原创 强化学习系列--从数值出发,解读 DPO 训练背后的偏好优化逻辑
DPO(直接偏好优化)是一种用于大模型对齐训练的新算法,通过简化RLHF流程,绕过奖励模型训练直接优化策略模型。核心流程包括:1)收集偏好数据(好/坏回答);2)策略模型与冻结参考模型协同训练,参考模型提供KL正则约束;3)通过β参数控制模型"自信度"。训指标包括logps(对数概率)、rewards(基于对数概率差值)和loss(sigmoid对数比值损失)。
2025-07-01 23:34:52
838
原创 [GAN] Pix2PixHD论文走读
姿态生成的第二篇博客,也是姿态生成基础架构的介绍,后续一些姿态生成任务基于Pix2PixHD网络架构;Pix2PixHD是基于Pix2Pix (参考博客: Pix2Pix论文及核心代码走读) 上面做的优化,主要解决(2017前)cGAN生成器的图片分辨率不够的问题,本篇博客主要介绍Pix2PixHD包括: Pix2PixHD介绍,基于pix2pix的四个优化点,
2021-02-01 15:12:36
1892
1
原创 [GAN] Pix2Pix论文及核心代码走读
交互数字人系列文章提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录交互数字人系列文章前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内
2021-01-31 13:26:14
2577
2
原创 基础知识卷积神经网络
卷积神经网络:卷积核链式反向梯度传导传导的过程就是导数系数传导的过程。就是前一个导数的结果和当前求导的乘积卷积层:卷积神经的基本结构,由多个卷积核组成,每个卷积核同输入数据卷积运算形成新的特征图。这个就说这个卷积层(输入)有多少卷积核运算(5),就会形成同等数量的特征图(输出)(
2021-01-26 23:23:18
1153
原创 OpenCV 知识总结
## 图像阈值化:目的是从灰度图像中分享目标区域和背景区域### 1、threshold—图像简单阈值化处理函数原型:threshold(src, thresh, maxval, type, dst=None)src:图像矩阵thresh:阈值maxVal:像素最大值type:阈值化类型### 2、adaptiveThreshold—图像自适
2021-01-26 23:21:30
694
原创 高级卷积神经的介绍
高级卷积神经(RNN)的介绍:AlexNext:现在神经网络起源,VGG:AlexNet增强版(Visual Geometry Group),GoogLeNet:多维度识别,ResNet: 机器超越人类的认识,DeepFace:结构化图片的特殊处理,U-Net:图片生成网络
2017-03-14 18:14:34
1224
原创 Tensorflow实现神经网络
#主要根据一个神经网络来讲解基础的tensorflow的应用。在实现一个神经网络的过程,来讲解tensorflow的应用。具体讲了每个函数的作用和意义。#还有就是讲解了dropout的作用,非线性激励函数,损失函数,还有优化算法。
2017-03-12 20:56:46
3109
原创 AdaBoost算法理解基于机器学习实战
AdaBoost算法就是用一个数据多次训练一个弱的分类器,但是adaboost分类器主要关注那些以被分离器错分的数据。提高分类错误数据的权重,降低分对数据集的权重。最后把每个分类器集合到一起,然后进行测试。Bagging:是在原始数据集选择S次后得到S个新数据集的一种技术。新数据和原始数据大小想到。新数据是经过原始数据集随机选择一个样本进行替换得到。这个说明新数据集可以有重复的值。当有了数据集
2017-03-12 17:19:04
1784
原创 深度学习:卷积神经网络基础
深度学习--卷积神经网络基础介绍和链式反向梯度传导卷积层:卷积神经的基本结构,由多个卷积核组成,每个卷积核同输入数据卷积运算形成新的特征图。这个就说这个卷积层(输入)有多少卷积核运算(5),就会形成同等数量的特征图(输出)(
2017-03-12 16:12:09
1199
原创 遗传算法(Genetic Algorithm)
遗传算法(Genetic Algorithm)是借鉴生物界的进化规律(适者生存,优胜劣汰)演化而来的随机优化搜寻算法。 主要特点: 1 GA从由很多的个体组成的一个初始化群体开始最优化的搜索过程. 2 遗传算法的选择,交叉,变异等运算都是以一种概率的方式进行的 3 具有并行的特点,适合大规模复杂问题的优化主要算法: 1. 种群的创建. 这个是最开始需要做的。定义一个种群包括多少个体,
2017-02-11 16:23:22
4765
1
牛津、剑桥、OpenAI等机构专家发布重磅报告:《对人工智能的恶意使用:预测、预防和缓解》
2018-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅