- 博客(48)
- 收藏
- 关注
原创 DAPO(Dynamic sAmpling Policy Optimization)
现有的强化学习算法(如 GRPO)在处理某些提示(prompt)时,如果所有输出都完全正确(accuracy = 1),会导致优势函数(advantage)为零,从而产生零策略梯度。随着训练进行,完全正确或完全错误的样本数量增加,导致每个批次中有效提示数量减少,使梯度方差增大、训练信号减弱。DAPO是一种直接基于“优势函数 Advantage”来优化策略的对齐方法,不需要奖励模型,也不需要 KL 惩罚,是 RLHF 的轻量级替代方案。,为低概率“探索”动作提供更大的增长空间,从而提升策略熵和样本多样性。
2025-11-14 15:42:45
986
原创 模型蒸馏(Knowledge Distillation)
对学生模型(使用自身tokenizer)进行微调,学习教师的生成分布。通过让学生“模仿”教师的输出分布,学生可以学习到比直接训练数据更丰富的知识。如果教师和学生词表不对齐,直接用软标签蒸馏可能会出现“词不对应”的问题。高温度 softmax 会使概率分布更平滑,凸显教师对其他类别的相似性。软标签的作用:帮助学生模型学习类别间的关系,提高泛化能力。:使 Softmax 输出更加平滑,类别之间的差异变小。,生成软标签,帮助学生模型学习教师模型的隐含知识。:教师模型输出的概率分布,包含类别关系。
2025-11-12 20:21:45
982
原创 GSPO(Group Sequence Policy Optimization)(群组序列策略优化)
否则,少量 token 的似然变化可能导致序列级重要性比率剧烈波动,且不同长度的响应需要不同的裁剪范围。GSPO算法,还原了重要性权重最初的计算方式,计算sequence-level的重要性权重,进行sequence-level的重要性权重clip。这样一来,即使每个 token 的路由略有不同,,它们的波动会在整个序列的 log-likelihood 平均中。因此,GRPO的这种重要性采样的方式有可能会导致更大的偏差,致使训练崩溃。,我们要计算新旧策略的比率,但如果 MoE 的路由器网络更新太快,
2025-11-12 16:52:02
598
原创 GRPO(Group Relative Policy Optimization)(生成式奖励策略优化)
GRPO(Group Relative Policy Optimization)是一种近年来在大语言模型(LLM)微调、尤其是数学推理/链式思考任务中提出的强化学习算法。— 相比传统的如 Proximal Policy Optimization(PPO)算法,GRPO 取消(或弱化)了价值函数(critic)网络,从而减少了模型参数和内存消耗。— 在数学、编程、链式推理等任务中,由于奖励函数或反馈机制可能较为稀疏、且传统价值估计困难,GRPO 提出用“组”样本比较的方式来估计优势(advantage)。
2025-11-11 16:21:19
224
原创 RLHF、DPO(Direct Preference Optimization) 算法
是一种结合强化学习(Reinforcement Learning, RL)与人类反馈(Human Feedback)的技术,用于训练人工智能(AI)模型,尤其是大型语言模型(如 ChatGPT)或其他复杂的智能体。DPO算法在强化学习与人类反馈(RLHF)的背景下发展,目的是在不依赖于复杂的奖励模型的情况下,直接优化模型输出的质量。在RLHF的初期,模型通常会在大量的无监督数据上进行预训练,像普通的语言模型一样,学习到一般性的语言理解和生成能力。i>0),且更大的能力值对应着更高的获胜概率。
2025-11-10 17:50:37
941
原创 PPO算法
PPO算法在策略梯度算法的基础上进行改进,增加了惩罚项和截断项。首先理解重要性采样:第四步表示为 计算 x 服从分布 q 时在分布 q 下进行采样的期望,从而计算出最初的 x 在 p 分布下进行采样的期望。而将 p 与 q 分别换为新策略与旧策略,即可通过比较新策略与旧策略。使用重要性采样更新目标函数的梯度公式。在上述推导中,为目标策略优势函数,通过重要性采样将其更新为与参考策略与参考策略结合的公式,从而使用来更新目标策略。类比为 我们个人想要的策略为。
2025-11-06 17:26:15
343
原创 时序差分算法、on-policy和off-policy(3)
时序差分是一种用来估计一个策略的价值函数的方法,它结合了蒙特卡洛和动态规划算法的思想。时序差分方法和蒙特卡洛的相似之处在于可以从样本数据中学习,不需要事先知道环境;和动态规划的相似之处在于根据贝尔曼方程的思想,利用后续状态的价值估计来更新当前状态的价值估计。回顾一下蒙特卡洛方法对价值函数的增量更新方式:这里将的替换成了,表示对价值估计更新的步长。可以将取为一个常数,此时更新方式不再像蒙特卡洛方法那样严格地取期望。蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报。
2025-11-05 14:48:55
599
原创 监督/自监督学习
本文系统介绍了三类自监督学习方法:1)基于前置任务的方法,包括位置预测、旋转预测、上色和聚类预测;2)基于对比学习的方法,详细解析了SimCLR和MoCo的技术原理,重点阐述了数据增强、正负样本构建、损失计算等关键环节;3)基于掩码重建的方法,通过与BERT类比,说明其通过"掩码-预测"机制实现无监督特征学习。文章通过技术流程分解和典型案例(如MAE)展示了不同方法的实现机制和优势,为理解自监督学习提供了系统框架。
2025-10-23 16:50:28
967
转载 大模型评价指标
PPL的全称为Perplexity,中文名为困惑度,是衡量语言模型好坏的一个常用指标。语言模型(language model)是用来预测句子中的next word的概率分布(probability distribution),并计算一个句子的概率。一个好的语言模型,应该给well-written 的句子更高的生成概率,阅读这些句子不应该让人感到困惑。
2025-10-16 17:16:51
216
原创 PEFT适配器加载
当我们想要在自己的模型中使用Lora方法进行微调时,可以借助PeftModel来给我们自己的模型实现lora方法。与上面的流程基本一致,但是模型模板改为 PeftMixedModel。这一步实现了将两个适配器加载到模型上同时激活适配器 lora_B。上述实现了自定义模型的创建和 lora 适配器的创建。支持同时激活多个LoRA模块,实现更灵活的组合调用。
2025-10-14 19:03:03
222
原创 SwiGLU浅析
大型语言模型需要处理多样化的任务(文本生成、推理、代码等),而 SwiGLU 的门控机制赋予其自动适配能力。在SwiGLU中,引入了门控机制,通过门控机制动态调整信息流,从而提升模型的表达能力与效率。组成,广泛应用于现代大语言模型(如 LLaMA、Qwen、PaLM)的前馈网络(FFN)中。在普通的FFN模块中,首先通过线性层升维,经过激活函数后再降维到想要的输出维度,如下图所示。:平滑梯度避免大模型常见的训练崩溃,避免了神经元坏死的问题。的双重非线性,显著提升了模型的函数逼近能力。结合具体例子进行解释。
2025-07-28 17:44:33
513
原创 Difussion Model、Flow Matching 与 Rectified Flow 浅析
Flow matching 的核心思想是构造一个,将样本从简单先验分布平滑地转化为目标数据分布。与传统的标准化流(normalizing flows)不同,flow matching 在连续时间框架下工作,避免了离散变换链的局限性。
2025-07-25 15:35:51
1229
原创 git 介绍与使用教程
每个开发者都有一个完整的本地仓库(包含完整历史记录),而远程仓库(如 GitHub、GitLab、Gitee)是团队共享的中央仓库。存储在服务器(如 GitHub)上,团队成员可以共享代码。存储在你的计算机上,包含完整的提交历史、分支和代码。(默认远程仓库别名),但可以有多个远程仓库(如。然后按照第一步继续执行即可。三、修改远程仓库的文件(以k.py为例)一、将本地项目提交到远程仓库的指令。你可以独立进行提交()等操作,无需联网。二、继续提交新的项目。
2025-07-18 16:37:23
284
原创 KV Cache原理详解 + 代码理解
所以 X 不需要进行全部的矩阵乘法,每一步只取第 k 个行向量即可,这就很大程度上减少了计算量,也就是 KV Cache 的数学原理。在没有 KV Cache 的情况下,如果要计算第 m+1 行,需要重新计算前 m 行,但是显然这样会造成大量的重复运算,因此我们可以保存前 m 行的结果,而只计算第 m+1 行即可。:传统自回归生成时,每次预测新token都需要重新计算所有历史token的Key和Value,计算成本随序列长度平方级增长(O(n²))。:代表历史token的上下文信息,需要被重复利用。
2025-07-10 15:57:04
1180
原创 HiFi-GAN 浅析
HiFi-GAN(High-Fidelity Generative Adversarial Networks)是一种基于生成对抗网络(GAN)的高效、高保真语音合成声码器(Vocoder),主要用于将梅尔频谱图(Mel-Spectrogram)转换为高质量语音波形。其核心目标是解决传统GAN声码器在语音质量上的不足,同时保持较高的生成速度。HiFi-GAN由和组成,并采用多种损失函数优化训练过程。生成器的任务是将低时间分辨率的梅尔频谱图(如80维Mel谱)上采样到高时间分辨率的语音波形(如24kHz音频)
2025-07-08 14:23:53
1140
原创 视觉基础模型迁移方法
通过低秩矩阵分解近似参数更新(ΔW=AB^T,A∈R^{d×r}, B∈R^{r×d})。冻结预训练模型的所有参数,仅训练新添加的线性分类头(通常是一个全连接层)。:灵活性差,若下游任务与预训练任务差异大(如医学图像 vs. 自然图像),性能可能受限。:主干网络使用更小的学习率(如1e-5),分类头用较大学习率(如1e-3)。:仅优化线性层的参数,使用下游任务数据(如交叉熵损失)。:先降维(如d→64)再升维(64→d),减少参数量。:设计复杂,对初始化敏感(需接近预训练分布的提示)。
2025-07-07 21:39:13
1070
1
原创 WaveNet 浅析
在WaveNet出现之前,语音生成技术主要依赖循环神经网络(RNN)对语音特征帧进行建模。传统方法通常采用以下流程:利用前N-1个特征帧预测第N个特征帧,而非直接处理原始音频波形。:原始音频数据量极大但信息密度低。以16kHz采样率的语音为例,1秒音频包含16000个采样点,而RNN的序列建模能力通常局限于100个时间步以内的短序列。:直接对原始波形建模需要捕捉样本间极细微的依赖关系(如单个周期声波包含数十个采样点),这对传统RNN架构构成巨大计算压力。
2025-07-07 10:05:36
752
原创 DINO 浅析
这种设计通过温度调控实现了有效的知识蒸馏:教师模型使用较低的softmax温度(如0.04),使其输出分布更加尖锐和确定,从而为特征学习提供高置信度的指导目标;与此同时,学生模型采用较高的温度(如0.1),使其能够以更平滑的概率分布来捕捉局部视图与全局特征之间的潜在关联。这种基于温度调控的自蒸馏策略,本质上构建了一个动态的师生互动系统:教师不断提供经过"深思熟虑"(低温精确)的特征表示,而学生则通过"广泛探索"(高温平滑)来学习如何从局部信息重建全局理解。通过调整温度参数,可以控制概率分布的平滑程度。
2025-07-02 23:10:53
570
原创 BN、LN、RMSnorm
LN在单个样本内计算均值和方差,适用于小Batch或单样本推理,如RNN和Transformer。:在NLP任务中,RNN或Transformer的输入长度可变,BN难以处理不同长度的样本。:BN在推理时依赖训练阶段存储的滑动平均均值和方差,若训练和测试数据分布差异大,性能会下降。:不强制零均值,减少梯度消失问题,尤其适合超深层模型(如1000层Transformer)。:在Batch Size较小时(如在线学习或RNN),BN的统计估计不准确,导致性能下降。
2025-07-01 21:08:54
502
原创 旋转位置编码(RoPE)、图像二维旋转位置编码
绝对位置编码根据单个单词的绝对位置来定义位置编码,每个位置都会分配一个位置编码,将位置编码的表征和单词本身的表征进行融合,再输入给Self Attention,相当于在输入层就把位置信息给弥补上去。绝对位置编码从实现方式上又分为固定式和可学习式,固定式形如原生的Transformer所采用的三角sin-cos位置编码,所谓固定指的是根据一个无参的固定公式就可以推演出位置编码,而可学习式没有固定的位置编码公式,通过初始化位置向量让模型根据上下文数据自适应地学习出来,Bert和GPT采用的可学习式。
2025-07-01 21:08:32
1485
原创 变分自编码器 VAE 浅析
自编码器是指自己训练自己,即将图像进行编码后用少部分潜在变量表示,然后用解码器还原图像,这样就实现了图像特征的高度提取与压缩。应用有:压缩,降噪,分割。而VAE(Variational auto-encoder,变分自编码器) 不再只是学习固定映射,而是学习获取输入数据的概率分布,也就是说中间量我们不再叫潜在变量,而是称为。这样关键问题就是如何构建一个从 x 映射到 z 的一个后验概率的分布,而根据右下角的链式法则可以知道,如上图所示,自编码器中的潜在表示在编码器参数不变的情况下是固定的,称为潜在变量。
2025-06-21 14:42:36
551
原创 生成网络 GAN 浅析
对抗神经网络其实是两个网络的组合,可以理解为一个网络生成模拟数据(生成网络Generator),另一个网络判断生成的数据是真实的还是模拟的(判别网络Discriminator)。生成网络要不断优化自己生成的数据让判别网络判断不出来,判别网络也要优化自己让自己判断得更准确。二者关系形成对抗,因此叫对抗神经网络。同时,GAN网络是一种无监督的学习方式,它的泛化性非常好。首先将一个简单分布z 使用生成器G生成一个假样本,然后用判别器D来判断是真样本还是假样本,这样通过G和D的不断对抗更新实现了更为精确的模型。
2025-06-21 11:31:02
345
原创 使用LLama-factory在魔塔社区微调Qwen2-VL
4.选择需要暴露的端口进行网络穿透,启动stable-diffusion-webui项目的请求端口为7860,所。但是由于魔塔社区没有浏览器界面,无法查看LLama-Factory的UI界面。运行如下命令,如果显示 LLaMA Factory 的版本,则表示安装成功。首先,拉取 LLaMA-Factory 项目到 DSW 实例。方法一:在终端TERMINAL右侧有个PORTS,选择对应端口打开即可。本教程准备了一份多轮对话数据集,运行下述命令下载数据。方法二:使用cpolar解决该问题。
2025-06-18 16:31:37
759
原创 BLIP2论文浅析
BLIP2最重要的贡献就是提出了模块,该模块有以下优点。通过训练 Q-Former 模块,实现了冻结的图像编码器和文本编码器的链连接,将视觉编码器提取的图像特征,压缩并转化为一组 task-relevant 的 token embedding,再作为提示 token 融入到大型语言模型中,实现视觉到语言的桥接。
2025-06-17 13:11:05
967
原创 beg-reranker重排原理浅析
它能对 token 对 token 的上下文交互建模,知道 query 中的“ChatGPT”和“BERT”是对比关系,优先匹配有“ChatGPT”和“BERT”对比描述的文档(比如文档C:“ChatGPT 和 BERT 的主要区别是……:它是先把 query 和所有文档分别编码成向量,再算相似度,没办法捕捉 query 和文档之间更复杂、细粒度的 token 级别交互信息。(如 BGE-base)用来把 query 和文档编码成向量,再做余弦相似度检索,拿到 top-k 候选。
2025-06-12 20:03:38
1858
原创 Grounding DINO 浅析
具体方法是,先计算每个文本特征(共 N_T 个)与图像特征(共 N_I 个)之间的点乘相似度,得到形状为 [bs, N_I, N_T] 的相似度矩阵。然后在文本特征维度(N_T)上,取每个图像特征位置与所有文本特征相似度的最大值,形成形状为 [bs, N_I] 的相似度向量。机制提取特征,然后在交叉融合层分别交互作为Q、K、V来融合信息,在图像文本学习到交互信息后通过FFN提取出增强后的图像和文本信息。的相似度,筛选出与输入文本最相关的图像特征,生成更加聚焦于语言指引目标的。
2025-06-07 21:23:30
542
原创 识别一切模型RAM(Recognize Anything Model)浅析
更丰富的语义表达:标签是离散的、有限的类别集合,而文本描述包含更丰富的语义和上下文信息。提升下游任务表现:有了生成文本的能力,模型不仅能做多标签分类,也能应用于图像描述、检索等任务,实现多任务学习,提升整体性能。作用:让模型学会准确识别图像中出现的标签(物体、场景等),这是一个多标签分类问题(标签之间不是互斥的)。目的:根据图像标签生成文本描述(caption),模型用解码器生成文本,和人工标注的真实文本描述对比。目的:模型对图像上的标签(tag)进行多标签分类预测,与人工标注的真实标签(
2025-06-05 21:45:19
426
原创 Actor-Critic 算法、优势函数(6)
基于策略梯度的算法则是在学习中由于依赖蒙特卡洛估计,因此会产生高方差(由于策略梯度需要实现从开始到结束的一次完整采样才能更新,值受环境随机性(状态转移、初始状态、动作采样)影响极大,不同的轨迹可能会有巨大差异,导致方差很大)。基于值函数的算法需要评估每个状态下所有动作的值函数,因此在连续动作中(几乎有无数中动作选择的情况)无法使用,并且该算法没有显式地学习策略,仅是选择值函数最大的动作,无法直接学习随即策略。其中,Actor 的更新采用策略梯度的原则,Critic 采取时序差分残差的方法,残差表示为。
2025-04-13 21:46:49
265
原创 策略梯度 REINFORCE 算法(5)
DQN算法及其变体都是基于值函数的算法,通过值函数来评估不同动作的价值,从而选择价值最高的动作。策略梯度算法则是直接学习不同状态下采取的策略,并用神经网络来显示采取不同动作的概率,根据概率选择动作。首先我们将策略学习的目标函数定义为:s代表状态,s0则为初始状态;为策略;V为价值函数;代表从s0开始的期望回报(均值)为了学习策略中的参数,对进行求导可得策略梯度策略梯度的具体求导过程感兴趣可看根据参考文章,推导非常详细。
2025-04-13 20:41:08
333
原创 DQN、Double DQN、 Dueling DQN 理解(4)
一言蔽之,上述三种算法就是使用神经网络的拟合能力将拟合出来。具体三种算法的不同在神经网络的更新和损失函数中有所体现。
2025-04-11 21:33:19
1626
原创 多臂老虎机篇(1)
准确来说,多臂老虎机问题中,每次 选出众多拉杆中的一个拉杆 后,根据 是否获得奖励 来更新Beta分布的参数。进行分析,发现其随着N增大而增大,随着n增大而减小,复合我们对探索价值的期望特性。首先理解Beta分布,简单来说Beta分布就是 估算概率的概率 ,由于概率在[0,1],更适合做老虎机问题的概率。在老虎机中,假设拉动拉杆会以概率p获取奖励1,概率1-p获取奖励0。也就是说,Beta分布并不是更具采样直接得出的概率,而是代表了概率的概率。,其中N为拉动老虎机的总次数,n为拉动这个杆子的总次数。
2025-04-09 22:38:12
783
原创 朴素贝叶斯(先验概率、后验概率、条件概率、似然概率)
条件概率是基于两个事件之间的关系,只考虑事件 A 和事件 B 同时发生的情况以及事件 B 发生的情况来计算。而后验概率是在贝叶斯框架下,结合先验概率和新的观测数据来计算的,它是一种对先验概率的修正。后验概率是 “执果寻因” 中 “果” 的概率(比如丢10次硬币5次正面朝上后,基于这个结果来探求丢硬币正面朝上的概率),根据已知的 “果” 来更新对 “因” 的概率评估。在事情已经发生的情况下,导致这个事情发生的因素的可能性。在某个事情发生后,求这个事情发生的原因是由于某个因素引起的概率。
2025-04-08 16:12:18
432
原创 大模型——Langchain 文本分割_MapReduce (11)
首先将文章切分成许多段,再将每个段进行总结,将每个段的总结再分批给大模型得出最终总结。
2025-04-06 17:03:45
204
原创 大模型——Langchain 文本摘要_Stuff方式(10)
自动加载并进行文本摘要任务,封装了模型、文本分割器和摘要策略。:简单高效,适合短文本(能保留完整上下文)。:某些 API 可能直接返回错误(如。:如果文本过长,会超过模型的。:模型自动丢弃超出部分。
2025-04-06 16:37:23
208
原创 大模型——Langchain 文本分类(9)
通过Classification中定义的sentiment、aggressiveness、language来使模型返回结构化数据,从而通过标签来实现情感分类。
2025-04-06 16:12:05
286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅