- 博客(267)
- 资源 (12)
- 收藏
- 关注
原创 PPO和GRPO算法
verl 是现在非常火的 rl 框架,而且已经支持了多个 rl 算法(ppo、grpo 等等)。过去对 rl 的理解很粗浅(只知道有好多个角色,有的更新权重,有的不更新),也曾硬着头皮看了一些论文和知乎,依然有很多细节不理解,现在准备跟着 verl 的代码梳理一遍两个著名的 rl 算法,毕竟代码不会隐藏任何细节!虽然 GRPO 算法是基于 PPO 算法改进来的,但是毕竟更简单,所以我先从 GRPO 的流程开始学习,然后再看 PPO。
2025-06-03 14:27:25
843
原创 InternLM2/LM2.5/ViT/VL1.5/VL2.0笔记: 核心点解析
本文主要是记录一下关于多模态大模型InternLM/InternVL系列的一些要点的理解。还是那句话,好记性,不如烂笔头。本文当成个人笔记用,行文风格和先前写的LLaVA系列一致。本文的重点是讲解多模态模型InternVL 1.5,但是InternVL 1.5选择了InternLM2作为LLM底座,以及使用InternViT-6B作为视觉理解模型。因此,本文也先从InternLM2和InternViT开始讲起。InternLM2和InternViT以简单说明为主。
2025-06-03 11:36:39
1154
原创 爱芯元智芯片推理cn-clip
cnclip_config_npu3_U8.json文件。1.下载依赖的opencv和onnxruntime。打开cmakelist.txt,在开头增加。下载feature_matmul.onnx。2.cmakelist修改。
2025-05-26 18:51:38
1014
原创 为什么要用位置编码?
在 NLP 任务中(后续拓展为多模态任务),顺序信息至关重要,例如: 我借给你 300 块与你借给我 300 块具有完全不同的含义。对于 Transformer 模型来说,由于 Attention 模块的无序性(无法区分不同位置的 Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码在后续基于 Transformer 架构的文章中有很多不同的实现方式,尤其是在大语言模型大行其道的现在,在面对长 token 的输入时,挑选合适的位置编码也会提升训练的效果。
2025-05-26 14:19:29
808
原创 大模型RL方向面试题90道
推理扩展定律表明,延长模型的推理时间可以显著提升其性能。模型通过更长时间的思考和自我修正,能够生成更准确的答案。然而,这种提升需要根据任务类型进行权衡。1.MC方法高方差:由于依赖完整的Episode回报,更新值可能受到随机因素的较大影响。无偏性:直接使用实际累积回报进行更新,确保了长期的准确性。2.TD方法低方差:利用每一步的即时奖励进行更新,减少了因随机性导致的波动。高偏差:依赖当前估计值进行更新,容易引入偏差,尤其是初始估计不准确时。3.GAE方法折中性。
2025-05-26 12:05:15
1071
原创 为什么大模型的损失函数采用交叉熵而不是 MSE?
这个问题不只是局限在大模型的损失函数,可以扩展为:为什么分类的损失函数采用交叉熵而不是 MSE?之所以这么做的原因,根本上是因为机器学习做的事情就是在做最大似然估计(MLE), 当然贝叶斯学派是在做最大后验概率估计(MAP)。
2025-05-21 10:16:00
317
原创 DPO的变体有哪些,主要解决DPO的什么问题?
IPO [3]:BT model旨在最大化正负response之间的reward gap,然而在实际中,我们所用的pair数据可能存在噪声,若一味扩大reward gap,就会出现不准确的情况,即对preference的pair数据产生过拟合。对此,DPOP引入一项新机制,对正例概率下降的pair进行惩罚,以促使正例概率得以提升。RSO [1]:鉴于DPO在蒙特卡洛采样上存在较大难度,导致其采样方式近乎为off-policy,RSO着重针对DPO的采样机制展开优化,以此攻克DPO所面临的问题。
2025-05-19 14:24:08
379
原创 从零开始训练一个简单的CLIP
到这里,你已经基本了解了CLIP的基本原理,并且能够自己动手训练一个简单的CLIP模型。整体上来看,代码比较简单,但是已经基本覆盖到CLIP的整体训练流程了。另外,如果需要实际的落地,建议还是使用openclip等更加成熟的框架。欢迎关注github:https://github.com/taishan1994。
2025-05-19 14:18:03
1125
原创 多模态大模型入门必读基础论文
paper地址:或项目地址:论文讲解:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》论文地址:论文讲解:《Learning Transferable Visual Models From Natural Language Supervision》论文地址:代码:论文解读:《Improving Language Understanding by Generative Pre-Training》
2025-05-16 17:13:28
483
原创 论文分享 | DPO
论文标题:Direct Preference Optimization: Your Language Model is Secretly a Reward Model发表年份:2023会议/期刊:NeurIPS论文链接:>> https://proceedings.neurips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html。
2025-05-12 12:00:19
896
原创 RLHF 实践:原理、代码、踩坑以及解决方案
最近倒腾了一波RLHF,从ColossalAI到TRLX以及DeepSpeed-Chat,最后基于DeepSpeed-Chat成功训练上了自己的模型,最后效果也是肉眼可见的提升。对这一部分进行下总结,包括原理,代码以及踩坑与解决方案。
2025-05-12 11:48:44
1089
原创 PPO 算法
PPO 是 TRPO 的一种改进算法,它在实现上简化了 TRPO 中的复杂计算,并且它在实验中的性能大多数情况下会比 TRPO 更好,因此目前常被用作一种常用的基准算法。需要注意的是,TRPO 和 PPO 都属于在线策略学习算法,即使优化目标中包含重要性采样的过程,但其只是用到了上一轮策略的数据,而不是过去所有策略的数据。PPO 是 TRPO 的第一作者 John Schulman 从加州大学伯克利分校博士毕业后在 OpenAI 公司研究出来的。
2025-05-06 14:23:46
664
原创 大模型优化利器:RLHF之PPO、DPO
现今,强化学习已成为大型模型的标配技术,特别是随着 OpenAI O1 的发布,该技术作为其核心方法,掌握并熟练运用强化学习已成为不可或缺的技能。本文简要概述了 RLHF 的基础知识,并初步介绍了 PPO 和 DPO,待日后有机会,将进一步深入学习 PPO 的其他变体。引用链接[1][2][3][4][5]朱小霖:DPO 是如何简化 RLHF 的:[6]infgrad:DPO: Direct Preference Optimization 论文解读及代码实践:[7][8]
2025-04-30 14:36:28
1063
原创 TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
如上所述,可以使用任何针对字符串返回标量值的函数来生成奖励(the reward can be generated using any function that returns a single value for a string),无论是简单的规则(例如字符串的长度)、度量(例如 BLEU)还是基于人类偏好的奖励模型。由于 PPOTrainer 在每个执行步骤中都需要主动奖励,因此我们需要定义一种在 PPO 算法的每个步骤中获取奖励的方法。在此示例中,我们将使用上面初始化的情绪奖励模型。
2025-04-28 11:53:47
899
原创 DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
步骤2)在于优化,具体过程大概是,对于同一个question prompt,模型在两种模型:language/policy model 和 reference model下分别生成,对应chosen 和 rejected label真值标签的生成概率,因此可以获得四种概率值:policy_chosen_logps, policy_rejected_logps, reference_chosen_logps, reference_rejected_logps, 用于DPO loss计算。
2025-04-28 11:48:09
1212
原创 实现GRPO(Implementing GRPO)
GRPO是一种训练技术,旨在通过捕捉特定偏好的奖励函数来优化语言模型。与其他强化学习方法(如PPO或RLHF)不同,GRPO不需要复杂的评判模型和大量计算资源,而是直接优化语言模型,并通过在生成的响应组内计算相对优势来实现目标。这实现展示了GRPO的工作原理,以及如何利用它优化语言模型以适应特定格式和任务。数学问题解决任务与XML格式的结合,清晰地体现了该技术的能力。
2025-04-21 14:46:08
1009
原创 直观理解 KL 散度
举个例子,P(a) 表示第二年喜欢苹果的比例是 50%,Q(a) 表示第一年也是 50%,它们的比值是 1,说明偏好没有变化。换句话说,如果第二年有 50 个学生喜欢苹果、10 个喜欢香蕉、40 个喜欢哈密瓜,那么对苹果和哈密瓜的变化应该更受关注,因为更多人喜欢它们,香蕉对总体影响较小。我们不再直接使用 P(x)/Q(x),而是使用 log(P(x)/Q(x)),这可以缓解前面提到的大数问题。第二年,喜欢苹果的比例仍是 50%,但喜欢香蕉的只有 10%,而喜欢哈密瓜的上升到了 40%。这是一个很好的开始。
2025-04-21 14:07:13
629
2
原创 为什么要GRPO?
本文主要跟大家梳理 LLM 强化学习算法演进之路: MC→TD→Q-Learning→DQN→PG→AC→TRPO→PPO→DPO→GRPO。 Q 值:代表智能体选择某个动作后,一直到最终状态奖励总和的期望, Q 值评价动作。 V 值:代表智能体在这个状态下,一直到最终状态的奖励总和的期望,V 值评价状态。 如何在不知道真实环境分布的情况下估算 V 值,已经诞生了多种方法,大体归纳为基于价值、基于策略两种: 代表:MC(Monte-Car
2025-04-16 10:26:55
667
原创 彻底弄懂BERT模型
在训练的初始阶段,我们可以设置一个很大的学习率,但是我们应该在后面的迭代中设置一个较小的学习率。因为在初始的迭代时,我们远没有收敛,所以设置较大的学习率带来更大的步长是可以的,但在后面的迭代中,我们已经快要收敛了,如果学习率(导致步长)较大可能会错过收敛位置(极小值)。在初始迭代期设置较大的学习率而在之后的迭代期减少学习率的做法被称为学习率 scheduling。热身步就是用于学习率 scheduling 的。假设我们的学习率是 1e-4,然后热身步为 10000 个迭代。
2025-04-14 15:28:31
861
原创 精通Transformer,要讲清QKV
对于文本生成任务,Query通常是模型已经生成的词,我们的目标是通过它来“询问”上下文,找出与它最相关的部分,以便生成下一个词。在文本生成任务中,Transformer的解码器会拿前面已经生成的词作为Query,去跟编码器的输出(或解码器自己的隐藏状态,作为Key和Value)互动,一步步生成后续的词。模型把“这里”的嵌入向量当作Query(Q),把前面的词“欢迎”、“关注”、“智能体”、“AI”、“公众号”的嵌入向量当作Key(K)。这个上下文表示融合了所有词的信息,但“公众号”的贡献最大。
2025-04-14 14:47:36
869
原创 从0开始大模型之模型DPO训练
具体公式推导可以参考这篇博客:https://www.cnblogs.com/lemonzhang/p/17910358.html。对话的偏好不是我们想要的答案,所以需要继续微调训练,这篇文章就介绍DPO。的代码和前面的一样,可以参考预训练的代码,如下就是初始化模型和。主要解决RLHF不稳定的问题,直接使用人类偏好数据训练模型。DPO的数据可以搜索huggingface的DPO数据集,格式的模型,如果想保存。prompt: 文本。chosen: 文本。
2025-04-10 16:10:39
763
原创 LLM大模型:deepspeed实战和原理解析
3、https://www.deepspeed.ai/ https://github.com/microsoft/DeepSpeed https://www.deepspeed.ai/getting-started/ 官网。2、显卡之间通信,涉及到参数传递的,会让显卡组成虚拟环,环内每个显卡的每个维度都依次给下一个显卡发送数据,直到每个显卡的参数都一样位置,这期间的经历称为scatter-reduce和all-gather!通行量是DDP的1.5倍,但是显存占用比DDP小了接近60倍!
2025-04-07 15:47:26
1237
原创 一文看懂!视觉语言模型VLM
视觉语言模型(Visual-Language Models, VLMs)是一种融合视觉信息与语言信息的多模态人工智能模型。它旨在通过同时处理图像、视频等视觉数据以及文本、语音等语言数据,实现对复杂场景的深度理解和生成。这种模型的核心在于打破视觉与语言之间的模态壁垒,使机器能够像人类一样综合运用视觉和语言能力来完成各种任务。在人工智能的发展历程中,视觉和语言一直是两个相对独立的研究领域。计算机视觉专注于图像和视频的识别与理解,而自然语言处理则致力于文本和语音的处理与生成。
2025-04-07 14:03:34
1140
原创 THUNLP_Multimodal_Excercise
该方法首先使用正负样本对训练一个打分模型(reward model),再利用打分模型给出的得分,对大模型的回复进行优化,优化目标是提升大模型回复在打分模型评判下的得分,同时不要与原始的模型参数相差太远。这样可以增强模型的表示能力,允许不同的头关注输入序列的不同部分。本次任务中,将提供一个不完整的多模态大模型结构及微调代码,请根据要求,补全过程中的关键步骤,并在提供的数据上实现简单的微调与推理。在偏好对齐训练阶段,通过收集一系列的正负样本对,对模型的输出进行双向的监督,从而更有效的控制模型的输出。
2025-04-03 18:45:14
809
原创 从 AlexNet 到 Swin Transformer:计算机视觉架构演进图谱
在计算机视觉领域,模型架构的演进宛如一场精彩绝伦的技术接力赛,从早期的 CNN 逐步过渡到如今大放异彩的 Transformer,每一次关键节点的突破都为整个领域注入了强大的动力,推动着视觉任务的性能迈向新的高度。本文将沿着时间轴,梳理这一演进路径中具有里程碑意义的模型以及 Transformer 的突破性成果,展现技术迭代的脉络。
2025-03-31 16:21:53
1061
转载 LLAVA复现!从0到1训练一个的多模态大模型(超越LLAVA 1.5)
本项目从0开始训练了一个MMMU分数超过llava-1.5的qllava模型,和llava相比差别在于LLM变成了qwen2。
2025-03-28 10:59:38
127
原创 KL(Kullback-Leibler)散度和交叉熵
信息增益是在决策树算法中用于选择最佳特征的一种评价指标。在决策树的生成过程中,选择最佳特征来进行节点的分裂是关键步骤之一,信息增益可以帮助确定最佳特征。信息增益衡量了在特征已知的情况下,将样本集合划分成不同类别的纯度提升程度。它基于信息论的概念,使用熵来度量样本集合的不确定性。具体而言,信息增益是原始集合的熵与特定特征下的条件熵之间的差异。在决策树的生成过程中,选择具有最大信息增益的特征作为当前节点的分裂标准,可以将样本划分为更加纯净的子节点。
2025-03-24 16:56:17
788
原创 解析 Qwen 大模型家族和Qwen-VL系列
当每个人都在谈论 DeepSeek-R1 在模型推理方面的里程碑时,阿里巴巴的 Qwen 模型却一直被掩盖。尽管没有过多的喧嚣,Qwen 模型凭借其开源特性以及在代理功能方面的独特优势,正悄然崛起。从一开始,Qwen 模型的研发团队就致力于使其具备工具使用等代理能力,这种前瞻性思维使得 Qwen 模型在人工智能领域展现出了独特的潜力。本文将深入探讨 Qwen 模型的发展历程,以及其如何通过 Qwen-Agent 框架实现强大的推理能力,与 OpenAI 和 DeepSeek 等先进模型相媲美甚至超越。
2025-03-24 14:24:59
1292
原创 多模态大模型常见问题
优点:Q-Former 通过查询机制有效融合了视觉和语言特征,使得模型能够更好地处理视觉-语言任务,尤其是在多模态推理任务中表现优秀。缺点:相较于 Q-Former,MLP 在处理复杂的视觉-语言融合任务时效果较差,尤其是在推理任务中。c.增强推理能力训练:进一步训练模型以增强其处理复杂推理任务(如图像中的逻辑推理)的能力。a.视觉-语言联合训练:使用大量的图像-文本对进行联合训练,以学习图像和文本之间的对齐。b.图像生成与理解训练:模型被训练以生成描述图像的文本,并理解不同的视觉任务。
2025-03-21 14:53:52
708
1
原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。
2025-03-17 14:56:43
848
原创 RLHF17问
RLHF?为什么要用它训练语言模型?解析:RLHF(基于人类反馈的强化学习)通过人类偏好数据优化模型,解决传统语言模型无法直接优化复杂目标(如“有趣且无害”)的问题。其核心价值在于:将模糊的人类价值观转化为可量化的奖励信号。使模型生成更安全、有用、符合伦理的文本。Q2:为什么 RLHF 比监督微调(SFT)更适合复杂任务?解析:SFT 局限:需明确“标准答案”,无法处理多目标(如“幽默且严谨”)。RLHF 优势:通过人类偏好数据定义复杂目标。模型在试错中学习权衡不同目标。
2025-03-17 14:28:22
790
原创 视觉语言模型VLM发展脉络
现代社会,双眼摄入的信息量大概可能是其他所有感官之和,而视觉信息最重要的两种载体——图片和文本是我们打开AGI的大门。当前LLM时代已经将人类的语言和思维掌握的很好,但是目前来看在图像感知、理解、生成方面仍有很大不足。
2025-03-12 10:29:53
1269
原创 多模态理解-Qwen-VL系列:Qwen-VL, Qwen2-VL, Qwen2.5-VL
Qwen-VL基于预训练好的Qwen-7B,支持等功能。
2025-03-10 16:29:01
1805
原创 siglip2推理教程
一定要按照下面的方法安装(或者从源码安装),否则会报错,试了其他几种方法都不行git clone https://github.com/huggingface/transformers.gitcd transformerspip install -e .安装完有下面提示即可:Successfully installed transformers-4.50.0.dev0 地址:https://huggingface.co/google/siglip2-base-patch16-224/tree/m
2025-03-07 11:31:38
635
2
《模式识别与智能计算的MATLAB实现》
2015-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人