- 博客(315)
- 收藏
- 关注
原创 大模型知识蒸馏的方法: DeepSeek, Llama 4 & Gemma 3中使用的技术
在用于按物种对动物图像进行分类的模型中,最早的隐藏层可能只是辨别照片的一部分中存在动物形状;捕捉样本之间的关系或特征间的关联性,例如通过对比学习的方式传递相似性信息。这些关系和相关性可以通过多种方式进行建模,包括特征图之间的相关性、表示不同层之间相似性的矩阵、特征嵌入或特征表示的概率分布。例如,在主要用于图像分割等计算机视觉任务的卷积神经网络中,随着数据在网络中传输,每个连续的隐藏层都会逐渐捕获更丰富的细节。同时也将相同的数据输入未经训练的学生模型,获取它的 softmax 概率分布。
2025-11-24 17:12:10
455
原创 测试时扩展,如何选择最优扩展策略,COT,自洽性解码,思维树,MCTS
这个公式表示,总的验证分数是所有验证器评分的乘积。验证器增强推理 是一种通过使用验证器(Verifier)来检查模型生成的答案的正确性,从而提高推理准确率的技术。事实验证器:知识库检索验证。例如,可以使用知识库来检索相关信息,然后判断模型生成的答案是否与知识库中的信息一致。乘积的原因:使用乘积的原因是,如果有一个验证器的评分很低,则总的验证分数也会很低,这表示答案的可靠性较低。其他组合方式:除了乘积之外,还可以使用其他的组合方式,例如,加权平均。可以构建一个多层验证体系,对模型生成的答案进行多方面的验证。
2025-11-21 11:54:37
261
原创 模型汤Model Soups
使用模型汤 (Model Soups) 提升稳健性和性能:平均权重。无需额外成本,效果更佳。“模型汤”(可惜不是“模型砂锅菜”或“模型炒菜”)是一类模型集成技术,旨在减轻优化训练数据和模型超参数的成本。在训练神经网络时,您通常会尝试不同的数据和超参数值并多次训练,以寻找性能最佳的结果。训练在计算上非常昂贵,并且成本会迅速增加。相反,“模型汤”涉及使用不同的超参数和训练数据选择来训练多个模型——与您通常的做法相同——然后将它们组合起来。结果是比单个最佳模型性能更高、更稳健的模型。
2025-11-19 11:45:30
168
原创 常用的optimizer优化器和优化函数::[MUON->MuonClip->Gluon->AdaMuon ]
Kimi.ai 的 Moonlight 模型(一个 16B 参数的 MoE 模型,使用 5.7T tokens 训练)成功采用 Muon 作为主要优化器,证明了其在工业级规模应用的可行性。
2025-11-18 20:52:38
891
原创 常用的optimizer优化器和优化函数::[lion, tiger]
自Adam提出以来,由于其快速收敛的特性成为了很多模型的默认优化器。甚至有学者提出,这个现象将反过来导致一个进化效应:所有的模型改进都在往Adam有利的方向发展,换句话说,由于我们选择了Adam作为优化器,那么就有可能将很多实际有效、但是在Adam优化器上无效的改动都抛弃了,剩下的都是对Adam有利的改进,详细的评价可以参考《NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER》。
2025-11-17 21:00:41
722
原创 JEPA(联合嵌入预测架构),LeJEPA
Lecun著名的“蛋糕论”:“然而,当时主流的SSL范式让他深感不满:对比学习 (Contrastive Learning): 这条路径的核心是“分辨异同”。它通过数据增强制造“相似的样本”(正样本),再将其与其他所有样本(负样本)进行对比,迫使模型学习到一个“物以类聚”的表示空间。生成式学习 (Generative Learning): 这是以BERT、GPT、Diffusion为代表的“完形填空”范式。通过遮盖一部分输入(像素、文字),让模型去预测并重建被遮盖的内容。
2025-11-17 20:25:20
978
1
原创 搜索智能体
DeepResearch (深度研究) :解决「我写不好」的问题。这类任务要求智能体围绕一个复杂主题进行综合研究,并生成一份高质量的报告,考验的是其信息整合与内容生成能力。DeepSearch (深度搜索) :解决「我找不到」的问题。这类任务要求智能体挖掘隐藏深、难以发现的特定事实,考验的是其深度推理和信息挖掘能力。WideSearch 论文则提出了第三个范式,专注于解决「我能做,但工作量太大」的问题。保真度要求高:最终结果要求极高的完整性和准确性,任何一个信息点的遗漏、错误或冗余都可能导致整个任务失败。
2025-11-13 16:45:06
109
原创 自进化AI代理
自进化AI代理是自主系统,通过与环境的交互持续且系统地优化其内部组件,目标是在保持安全性和提升性能的同时适应变化的任务、上下文和资源。
2025-11-13 16:44:46
951
原创 Meta-Chunking (2024.8.16) Late Chunking(jina 2024.8.4)Anthropic (2024.9.20)Small Language Model
它们不生成完整的文本块,而是输出关键点或子主题。简单来说,因为它只提取关键点或子主题,这就相当于抓住了片段的核心意思,通过文本的语义转换,来更准确地识别边界,保证文本块的连贯性。topic-qwen-0.5: 这个模型受到了思维链 (Chain-of-Thought) 推理的启发,它会先识别文本中的主题,比如“第二次世界大战的开始”,然后用这些主题来定义分块边界。
2025-11-13 16:44:05
771
原创 Speculative Decoding/投机解码
并且,p(x)与 q(x)差距越大,p(x)/q(x)就越小,那么1-p(x)/q(x)就越大,拒绝的概率就越大。(接受率):在Speculative decoding中,接受率所刻画的是,在给定x<t前缀的情况下,模型生成的token 被接受的概率。对于p(x)< q(x)的x来说,p(x) - q(x) <= 0,再经过max(),值就置为零,那么这些token将永远不会被采样到。这里稍微注意下,前面的接受与拒绝,我们比较的是具体的token的概率值,这里调整的是token所在位置处的概率分布。
2025-11-13 16:31:19
752
原创 BAPO:自适应裁剪如何实现LLM策略优化的动态平衡
BAPO (Balanced Policy Optimization with Adaptive Clipping),从根本上改变了游戏规则。BAPO 摒弃了 PPO 僵化的固定裁剪区间,转而采用一种以目标为导向的自适应机制:它为每一次更新动态地调整裁剪边界,其核心目标是确保正向信号在总梯度贡献中维持一个健康的比例。
2025-11-13 10:38:45
692
原创 统一策略梯度估计器 (UPGE)将SFT和各种RL变体)的梯度计算统一表达,混合后训练 (Hybrid Post-Training, HPT)动态地、自适应地在SFT和RL两种学习信号之间进行切换
根据模型性能 P 动态决定的。论文中使用了一个简单而有效的开关函数:这里的 P 是模型在当前问题上 n 次采样(rollouts)的平均成功率。γ 是一个“门控阈值”(gate threshold)。如果模型的平均成功率 P大于阈值γ ,那么就设置 α=1, β=0。此时,总损失=LRL,模型完全通过强化学习进行更新。这表示模型在该问题上已经“入门”,可以开始进行探索性学习了。如果模型的平均成功率 P小于等于阈值 γ,那么就设置 α=0, β=1。此时,总损失=LSFT。
2025-11-06 16:52:02
899
原创 Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈
为了实现这一目标,他们提出了一个名为 LPPO(Learning-Progress and Prefix-guided Optimization) 的渐进式优化框架。
2025-11-06 14:38:24
689
原创 SFT 和 RL 融合:CHROD, LUFFY,UFT, PSFT
其中, SFT 损失,用于引导模型学习高质量专家数据;RL 损失(如 GRPO),用于优化任务相关的可验证奖励;μ为全局控制系数,用于动态平衡 SFT 与 RL 的相对权重。在训练初期设置 μ=0.9,以促使模型优先学习专家行为模式,快速建立基础能力;随后在前 200 个训练步中将 μ 逐步衰减至 0.05;此后保持μ 不变,使模型主要通过 RL 探索高奖励路径,避免过度依赖静态专家数据。此外,CHORD 对传统的 SFT 损失进行了改进,引入 token-level 动态加权机制。
2025-11-03 18:10:38
700
翻译 ASPO: PPO-clip的正样本 token 权重错配问题与影响:Hard Clip,Soft Clip, Dual-Clip,Dual-Token Clip
1.首先梳理了PPO-Clip中两个核心机制——Token-Masking 与 Importance-Sampling——的作用与设计初衷;2.然后从以上两个角度出发,审视了近半年来各类针对 PPO-Clip 的改进工作,分析其合理性及有效性;3.接下来通过实验证明在 GRPO 类算法应用于 LLM 训练时,重要性采样的分布调整机制并不重要,相反,这个重要性权重更可能是通过 token训练权重的机制对训练产生影响的。
2025-11-03 15:34:28
42
原创 GRPO训练的时候,会产生大量重复内容,如何调参改进
GRPO是PPO(Proximal Policy Optimization)的一种变体。它和DPO(Direct Preference Optimization)一样,都属于免强化学习(RL-free)的对齐方法,但思路却截然不同。简单来说,GRPO可以看作是PPO的轻量化、实用化版本,它试图在保持PPO强大优化能力的同时,规避其训练不稳定、实现复杂的问题。
2025-10-31 15:44:21
547
原创 强化学习参数技巧
熵的作用熵(策略熵)衡量模型的探索能力,训练初期熵较高时模型更倾向于探索多样行为,但随着训练深入熵通常会下降。若完全不加控制,可能导致熵崩塌(策略熵急剧下降),此时模型过度依赖已有策略而停止探索,影响性能提升。何时使用熵损失训练初期:建议添加熵损失以维持探索。例如在PPO算法中,通过引入KL惩罚或Clip-Cov方法限制高协方差token的更新,可避免熵过快下降。稳定期:若模型已收敛且性能稳定,可逐步减少或移除熵损失,避免过度探索导致性能下降。替代方案。
2025-10-31 11:29:38
228
原创 数据配比:SFT,PPO, RLHF等配比小技巧
实验设计:研究人员将每种 SFT 数据集(GSM8K RFT, Code Alpaca, ShareGPT)按 1 (全部), 1/4, 1/16, 1/64, 1/256 的比例进行采样,分别对 LLaMA 的 7B, 13B, 33B 模型进行微调,并观察其在对应评测基准上的性能变化。这有力地证明了该现象的普适性,它源于混合不同性质数据本身带来的影响(多样性带来的正则化 vs. 异质性带来的干扰),而非简单的“数据泄露”。k 值的大小直接影响到“唤醒”效果和对通用能力的干扰程度之间的平衡。
2025-10-30 19:55:29
833
原创 2-GRPO:两个样本就足够,其实就是在做对比学习
基于这一洞察,作者提出了2-GRPO——仅使用两个响应分组的GRPO变体。理论上,2-GRPO保持了无偏梯度估计;实验上,它在多个数学推理任务中与16-GRPO性能相当,同时将训练时间减少70%以上, rollout数量减少至1/8。这项研究不仅揭示了GRPO的内在机制,还为资源受限的LLM后训练提供了高效解决方案。
2025-10-29 20:33:48
782
原创 DCPO:让RLVR学会「动态裁剪」解决GRPO零优势零梯度和固定裁剪问题
解决了核心矛盾:DCPO 成功地在提升数据利用率和增强模型探索能力之间取得了平衡。SAS 机制通过引入历史信息,在不丢弃数据的前提下解决了零梯度问题;DAC 机制则通过概率自适应的裁剪边界,智能地鼓励模型探索稀有但有价值的推理路径。提升了训练效率:相较于 GRPO,DCPO 将数据利用率(RUR)提升了超过 60%;相较于 DAPO,其训练效率翻倍,大幅节省了计算资源。
2025-10-29 19:57:39
1152
原创 A2A:Agent2Agent 协议,
安全协作(Secure Collaboration):通过引入认证/授权机制,保证 Agent 之间的身份互信。任务状态管理(Task and state mgmt):实现了 Agent 之间互操作任务以及任务状态的可管理性。用户体验协商(UX negotiation):不同的 Agent 通过协商的方式,对用户提供无缝的体验。功能发现(Capability discovery):提供了 Agent 之间相互发现各自能力的机制。
2025-10-29 17:16:48
850
原创 表示微调(ReFT)
PEFT方法,例如,LoRA、DoRA和prefix-tuning,侧重于修改模型的权重或引入额外的权重矩阵。PEFT 方法如 LoRA 专注于减少可训练参数的数量,并更新模型权重的一小部分以适应模型。在 PEFT 中,变化是在序列中单个标记的表示上进行的。ReFT 受到对可解释性研究的影响,该研究在时间上重复使用表示,并直接编辑其中的一小部分。它使用编码在这样表示中的强大语义信息来调整模型。这些是针对特定任务的改变,是对表示的干预。您会注意到可训练的参数非常少,仅占模型总参数数量的 0.0004%。
2025-10-22 20:27:31
518
原创 verl训练拆解GRPO,PPO等训练原理,verl框架训练GRPO
在强化学习中,一个episode是指智能体(Agent)与环境(Environment)之间一次完整的交互序列。这个序列从智能体开始观察环境状态开始,然后根据其策略选择一个动作并执行,环境会给出新的状态和奖励,这个过程会一直重复,直到达到某种终止状态,比如游戏结束、任务完成或达到预定的步数。每个episode都是独立的,结束后会重置环境并开始新的episode。例如,在一个简单的迷宫游戏中,一个episode可能包括智能体从起点开始,经过一系列的移动,最终达到终点的整个过程。
2025-10-20 18:06:28
925
原创 flash-attention连环问答--softmax 、safe softmax 、online softmax
其中 Q,K,V 都是 N * dk 的 2D 矩阵,N 为序列长度,dk 为头的维度。
2025-10-20 17:59:34
912
原创 自回归解码-》贪心解码-》投机解码
当前的主流 LLM 基本都是 Decoder Only 的 Transformer 模型,其推理阶段采用自回归采样,特点如下:模型使用前缀作为输入,将输出结果处理+归一化成概率分布后,采样生成下一个token。从生成第一个 Token之后,开始采用自回归方式一次生成一个 Token,即当前轮输出token 与历史输入 tokens 拼接,作为下一轮的输入 tokens,然后解码。重复执行2。在后续执行过程中,前后两轮的输入只相差一个 token。
2025-10-09 17:38:31
744
原创 DPO---仅策略模型&参考模型, 原理、流程与 Loss 解析,DPO-Positive
(loss的解读很清晰,提供了最小实现)DPO(Direct Preference Optimization,直接偏好优化)是由斯坦福大学等研究团队于2023年提出的一种偏好优化算法,可用于LLM、VLM与MLLM的对齐训练。
2025-09-25 20:40:23
1358
原创 PPO---loss推导,四个模型各自特点和代码解读
训练过程中,policy model 会不断更新,为了不让它偏离SFT阶段的模型太远,OpenAI在训练过程中增加了KL离散度约束,保证模型在得到更好的结果同时不会跑偏,这是因为Comparison Data不是一个很大的数据集,不会包含全部的回答,对于任何给定的提示,都有许多可能的回答,其中绝大多数是 RM 以前从未见过的。RM 模型的目标是使得排序高的答案yw对应的标量分数要高于排序低的答案yl对应的标量分数,且越高越好,也就是使得损失函数中的rθ(x,yw)−rθ(x,yl)这个差值越大越好。
2025-09-25 20:20:08
899
原创 大模型里使用的pytorch dataset 和dataloader详细解析和介绍
打乱顺序后,第一次就可能抽出来{“A”:“this is A1”, “B”:“this is B1”}作用是用来随机抽取所需要的数据,每行代表一条数据,做一些sample的事情。可以是json, jsonl格式:一行是一个数据。也可以是txt格式,一行是一个json格式数据。也可以是parquet格式。例如:原本按顺序抽取。
2025-09-25 10:58:38
492
原创 金鱼损失:大模型“记性差一点”反而更聪明!随机剔除token,让AI不再死记硬背
实验显示,LLaMA-2在使用金鱼损失后:记忆化内容显著减少:模型不再复现训练数据下游任务性能几乎不受影响:仍然能流畅生成文本用网友的精辟评论概括就是:dropout,但损失函数!
2025-09-16 11:42:03
415
原创 数据组织范式:DELT:调整训练数据出场顺序,大模型就能变聪明!无需扩大模型/数据规模
它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。DELT(Data Efficacy in LM Training)是一种创新的文本数据组织范式。
2025-09-16 11:37:05
204
原创 文本分块的优化策略-语义完整性、控制长度、重叠切分、结合模型,考虑大模型输入限制
在文本切分过程中,应尽量避免将句子拆分。句子是表达完整语义的基本单位,拆分句子可能导致语义破碎,影响向量化表示的准确性和模型对文本的理解。例如,句子中包含的主谓宾结构或修饰关系在被截断后,会失去原有的含义,使得模型难以准确捕捉文本的核心内容。
2025-08-27 19:21:37
846
原创 RAG分块策略,固定大小、文档结构、语义理解、多模态文档
场景:适用于文档结构较为一致,内容长度相似的情况。通常按字数、标记数或字符数。描述:将文档等分为固定大小的块,简单直接。
2025-08-27 17:44:32
513
原创 sageattention低比特量化注意力机制,比FlashAttention快5 倍
实现了 5 倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了 1040 TOPS 的速度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!
2025-08-21 18:12:55
810
原创 选择分布更均匀的数据可以提高训练效率,同时增强性能
数据的质量和多样性已经被广泛研究,并被证明可以提升模型性能。然而,对于复杂任务,尤其是那些先验知识有限的任务,是否存在其他定量且通用的数据选择原则,能够持续改善性能,这一点尚不明确。在本文中,我们证明了选择分布更均匀的数据可以提高训练效率,同时增强性能。具体来说,我们确定了更均匀(偏差更小)的分布会导致数据点之间的最小成对距离 h min增大,并证明了较小的 h min会减缓梯度下降(GD)的训练动态。此外,我们从理论上证明了随着 h min的增加,神经网络的近似误差会减小。
2025-08-21 17:15:03
904
原创 监督微调SFT->强化微调RFT->动态微调DFT->统一微调UFT
SFT通常与强化学习(RL)方法相比泛化能力有限。RL利用明确的奖励或验证信号,使模型能够探索多种策略,从而实现更强的泛化能力。然而,RL方法通常需要大量的计算资源,对超参数调整敏感,并且依赖于奖励信号的可用性,这些条件在实践中并不总是可行的。即使RL可行,SFT在快速获得RL可能难以独立发现的专家行为模式方面仍具有优势揭示了标准SFT梯度隐含地编码了一个有问题的奖励结构,这可能会严重限制模型的泛化能力。
2025-08-21 16:01:56
1847
原创 BeyondWeb:大规模预训练合成数据的启示
摘要使用的 prompt:总结以下文本。直接从总结开始。不要说其他任何话。简单摘要与 cosmopedia 的效果近似,且摘要所使用的计算资源远少于 cosmopediaHQ 表示高质量的网络数据,LQ 表示低质量的网络数据。深蓝色的线表示 BeyondWeb(50.4%),深青色的线表示 HQ Synth + HQ Web(49.2%),其中合成数据是高质量网络样本的改写版本,浅青色的线表示 LQ Synth + HQ Web(48.6%)。
2025-08-20 18:15:03
957
原创 大模型问题:幻觉分类+原因+各个训练阶段产生幻觉+幻觉的检测和评估基准
Cossio的工作从理论到实践,系统重塑了我们对LLM幻觉的理解——它不再是单纯的“错误”或“缺陷”,而是计算模型的根本属性,必须通过科学的分类、因果分析及多元策略加以管理。该研究为LLM安全应用提供了坚实的理论支撑与操作指南,推动AI技术向负责任、可控的方向发展。
2025-08-19 15:45:58
1094
原创 减少幻觉的方法:数据集优化,模型和推理技术,训练方法优化,prompt工程、Self-reflection自我反思,Few-shot learning (with RAG),Instruction F
在实际生产落地中,我们会循序渐进的采用如下策略来提高准确性,降低幻觉:策略 难度 数据要求 准确性提升Prompt engineering 低 无 26%Self-reflection 低 无 26-40%Few-shot learning (with RAG) 中 少量 50%Instruction Fine-tuning 高 中等 40-60%
2025-08-19 15:39:33
1278
原创 大模型生成-采样参数
从所有候选token中,保留概率最高的K个作为候选集。模型只会在这K个token中进行采样,能够有效过滤掉低概率、无关或不合理的词汇,从而提升生成内容的质量和相关性。K值越小,输出越确定;K值越大,输出越多样。
2025-08-19 15:28:53
415
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅