自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(330)
  • 收藏
  • 关注

原创 MoE 模型的训练–推理差异:R2->R3->MiniRL

RL 训练中的“训练-推理不匹配”难题:引擎差异、序列ort oken级奖励:重要性采样IS/切回 FP16精度/直接优化token奖励MoE 模型的训练–推理差异:Rollout Routing Replay(R3)MoE 模型的训练–推理差异:R2->R3->MiniRL

2025-12-10 11:50:57 527

原创 RL 训练中的“训练-推理不匹配”难题:引擎差异、序列ort oken级奖励:重要性采样IS/Clip/切回 FP16精度/直接优化token奖励

虽然理论上 μ = π,但由于数值精度和硬件优化差异,实际上它们并不相等。

2025-12-10 11:40:08 1160

原创 MoE 模型的训练–推理差异:R2->R3->MiniRL

θ:模型参数。πθ:目标策略(待优化)。μθold:Rollout 策略(用于采样回复)。注意,这里区分了 π(训练引擎中的策略)和 μ(推理引擎中的策略)。x:输入 Prompt,y:回复,R(x,y):序列级标量奖励。

2025-12-09 17:59:10 576

原创 MoE 模型的训练–推理差异:Rollout Routing Replay(R3)

max_seq=65536,batch=64,交互步≤50,lr=2e-6,mini_step=1。表 2 显示,无 R3 的 GRPO 约 90 步崩溃,GRPO+R3 稳定至 160 步,最终 Pass@1 达 38.6,提升 6.8 分。图 2d 的累积分布曲线也表明,R3 使“训练-推理概率比”过大的 token 频率降低约一个数量级,直观验证了差异的显著缩小。即便输入序列一模一样,MoE 模型在 Megatron 引擎的两次前向中,最终输出的 token 概率仍可能不同。

2025-12-09 14:35:00 835

原创 RL 训练中的“训练-推理不匹配”难题:根源分析于解决办法(重要性采样IS 、 切回 FP16精度)

为了解决训练不稳定和难以收敛的问题,业界提出了各种复杂的算法补丁(如Token-level Importance Sampling等)。

2025-12-08 20:21:32 595

原创 MoE 模型 Post-Training 的核心难点

首先,路由机制在微调阶段极易失稳。MoE 模型依赖一个可学习的 router 来决定每个 token 应该分配给哪些 expert。在预训练阶段,模型通过海量数据学习到一个相对均衡的专家激活分布。但一旦进入 Post-Training 阶段,训练数据量锐减、任务目标高度聚焦(如指令微调、工具调用、安全对齐等),router 很容易陷入“马太效应”——少数专家被频繁激活,而其他专家逐渐“失活”。这种失衡不仅导致模型容量浪费,还会显著降低泛化能力。

2025-12-05 11:16:35 928

原创 训练时可以调整的参数

学习率是微调LoRA(Low-Rank Adaptation)模型时的一个关键超参数,它对模型的训练动态和最终性能有着显著的影响。

2025-12-05 11:14:08 693

原创 LOKI::AAAI-26 Oral | 对抗灾难性遗忘的LLM微调

论文: https://arxiv.org/abs/2505.22120代码: https://github.com/Nexround/LoKI (支持集成到 Llama-Factory!LoKI 的全称是 Low-damage Knowledge Implanting(低损伤知识植入)。思路:不要搞“大水漫灌”式的更新,要搞“精准滴灌”。

2025-12-05 11:03:44 242

原创 WSD(Warmup-Stable & Decaying)、WSM(Warmup-Stable & Merge)训练策略

对比这些同期工作,我们希望从更general的角度讨论 CKPTs merging 和 LR decay 的双向转换关系,并在正式模型训练中用 CKPTs merging 全面替换 LR decay,使其作为Ling的训练策略帮我们得到更好的CKPTs,而不仅仅是模型观测的手段。也希望WSM能带给社区更多启发。与 WSD 策略必须提前定好decay token量不同,WSM 赋予了我们极大的灵活性——我们可以在训练结束后,离线尝试不同的合并窗口大小,从中选出最优的合并方案,而无需任何额外的训练成本。

2025-12-05 11:01:26 766

原创 MoE模型的核心架构---专家网络---门控网络/路由器

MoE架构并非单一固定的设计,但其核心组件和工作流程具有共通性。一个典型的MoE层通常嵌入在Transformer架构中,用于替代其中的前馈网络(Feed-Forward Network, FFN)层。关键的技巧在于:并不为每个 token 启用所有的专家模块(experts),而是由一个「路由器(router)」为每个 token 挑选出其中一小部分进行激活。MoE 的这种设计使得模型拥有极大的参数容量,在训练阶段能吸收更多知识;但在推理时由于稀疏激活,大幅降低了计算开销。

2025-12-04 16:47:23 1217

原创 DSA---deepseek sparse attn

论文通过引入 DeepSeek 稀疏注意力(DSA)机制,成功地在保持高性能的同时,显著提升了大型语言模型在长上下文场景下的训练和推理效率。提出了一种有效的稀疏注意力架构(DSA):通过结合一个轻量级的“闪电索引器”和一个细粒度的 Top-k Token 选择机制,DSA 实现了一种灵活且高效的动态稀疏注意力模式。这种“先粗筛,后精算”的范式,在理论和实践上都被证明是可行的。

2025-12-03 19:47:16 1000

原创 RL更新稀疏性&full rank------RLVR避开主权重,而SFT瞄准它们,The Path Not Taken: RLVR Provably Learns Off the Principal

论文1:Reinforcement Learning Finetunes Small Subnetworks in Large Language Models作者对上述稀疏性的原因进行了进一步探究。

2025-12-01 15:57:39 1006

原创 强化学习后训练框架--共置式--分离式

LLM强化学习后训练框架大致可以分为共置式(Task-Collocated)与分离式(Task-Separated)两类。共置框架下,各个计算任务部署在整个集群上串行执行,构成一个时分复用的系统;而分离框架则允许部分或全部计算任务布放在不同的设备,构成一个空分复用的系统。PPO算法流程,包括三个阶段+四个模型+六个任务(图片来源:https://arxiv.org/pdf/2409.13221v1)

2025-12-01 15:14:58 624

原创 selected DPO ---训练数据应匹配模型能力,过难的训练样本反而可能严重损害模型对齐性能。

项目主页:https://github.com/glorgao/SelectiveDPO基于此,提出 Selective DPO:先过滤掉过难样本,再执行标准 DPO。无需算法大改,即可在 AlpacaEval 2 上比 DPO 基线提高 9–16 个点的 win rate,超过一系列 DPO 变体。

2025-11-28 18:04:55 1049

原创 序数回归:损失函数:ordinal_regression_loss

在医疗 AI 领域,很多分类任务具有有序类别的特性,如疾病严重程度(轻度→中度→重度)、肿瘤分级(G1→G2→G3)等。这类任务被称为序数回归(Ordinal Regression),需要特殊的损失函数设计。本文将深入解析序数回归损失函数的原理及其实现代码。

2025-11-26 14:36:10 293

原创 大模型知识蒸馏的方法: DeepSeek, Llama 4 & Gemma 3中使用的技术

在用于按物种对动物图像进行分类的模型中,最早的隐藏层可能只是辨别照片的一部分中存在动物形状;捕捉样本之间的关系或特征间的关联性,例如通过对比学习的方式传递相似性信息。这些关系和相关性可以通过多种方式进行建模,包括特征图之间的相关性、表示不同层之间相似性的矩阵、特征嵌入或特征表示的概率分布。例如,在主要用于图像分割等计算机视觉任务的卷积神经网络中,随着数据在网络中传输,每个连续的隐藏层都会逐渐捕获更丰富的细节。同时也将相同的数据输入未经训练的学生模型,获取它的 softmax 概率分布。

2025-11-24 17:12:10 725

原创 测试时扩展,如何选择最优扩展策略,COT,自洽性解码,思维树,MCTS

这个公式表示,总的验证分数是所有验证器评分的乘积。验证器增强推理 是一种通过使用验证器(Verifier)来检查模型生成的答案的正确性,从而提高推理准确率的技术。事实验证器:知识库检索验证。例如,可以使用知识库来检索相关信息,然后判断模型生成的答案是否与知识库中的信息一致。乘积的原因:使用乘积的原因是,如果有一个验证器的评分很低,则总的验证分数也会很低,这表示答案的可靠性较低。其他组合方式:除了乘积之外,还可以使用其他的组合方式,例如,加权平均。可以构建一个多层验证体系,对模型生成的答案进行多方面的验证。

2025-11-21 11:54:37 281

原创 模型汤Model Soups

使用模型汤 (Model Soups) 提升稳健性和性能:平均权重。无需额外成本,效果更佳。“模型汤”(可惜不是“模型砂锅菜”或“模型炒菜”)是一类模型集成技术,旨在减轻优化训练数据和模型超参数的成本。在训练神经网络时,您通常会尝试不同的数据和超参数值并多次训练,以寻找性能最佳的结果。训练在计算上非常昂贵,并且成本会迅速增加。相反,“模型汤”涉及使用不同的超参数和训练数据选择来训练多个模型——与您通常的做法相同——然后将它们组合起来。结果是比单个最佳模型性能更高、更稳健的模型。

2025-11-19 11:45:30 201

原创 常用的optimizer优化器和优化函数::[MUON->MuonClip->Gluon->AdaMuon ]

Kimi.ai 的 Moonlight 模型(一个 16B 参数的 MoE 模型,使用 5.7T tokens 训练)成功采用 Muon 作为主要优化器,证明了其在工业级规模应用的可行性。

2025-11-18 20:52:38 999

原创 常用的optimizer优化器和优化函数::[lion, tiger]

自Adam提出以来,由于其快速收敛的特性成为了很多模型的默认优化器。甚至有学者提出,这个现象将反过来导致一个进化效应:所有的模型改进都在往Adam有利的方向发展,换句话说,由于我们选择了Adam作为优化器,那么就有可能将很多实际有效、但是在Adam优化器上无效的改动都抛弃了,剩下的都是对Adam有利的改进,详细的评价可以参考《NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER》。

2025-11-17 21:00:41 756

原创 JEPA(联合嵌入预测架构),LeJEPA

Lecun著名的“蛋糕论”:“然而,当时主流的SSL范式让他深感不满:对比学习 (Contrastive Learning): 这条路径的核心是“分辨异同”。它通过数据增强制造“相似的样本”(正样本),再将其与其他所有样本(负样本)进行对比,迫使模型学习到一个“物以类聚”的表示空间。生成式学习 (Generative Learning): 这是以BERT、GPT、Diffusion为代表的“完形填空”范式。通过遮盖一部分输入(像素、文字),让模型去预测并重建被遮盖的内容。

2025-11-17 20:25:20 1136 1

原创 搜索智能体

DeepResearch (深度研究) :解决「我写不好」的问题。这类任务要求智能体围绕一个复杂主题进行综合研究,并生成一份高质量的报告,考验的是其信息整合与内容生成能力。DeepSearch (深度搜索) :解决「我找不到」的问题。这类任务要求智能体挖掘隐藏深、难以发现的特定事实,考验的是其深度推理和信息挖掘能力。WideSearch 论文则提出了第三个范式,专注于解决「我能做,但工作量太大」的问题。保真度要求高:最终结果要求极高的完整性和准确性,任何一个信息点的遗漏、错误或冗余都可能导致整个任务失败。

2025-11-13 16:45:06 119

原创 自进化AI代理

自进化AI代理是自主系统,通过与环境的交互持续且系统地优化其内部组件,目标是在保持安全性和提升性能的同时适应变化的任务、上下文和资源。

2025-11-13 16:44:46 961

原创 Meta-Chunking (2024.8.16) Late Chunking(jina 2024.8.4)Anthropic (2024.9.20)Small Language Model

它们不生成完整的文本块,而是输出关键点或子主题。简单来说,因为它只提取关键点或子主题,这就相当于抓住了片段的核心意思,通过文本的语义转换,来更准确地识别边界,保证文本块的连贯性。topic-qwen-0.5: 这个模型受到了思维链 (Chain-of-Thought) 推理的启发,它会先识别文本中的主题,比如“第二次世界大战的开始”,然后用这些主题来定义分块边界。

2025-11-13 16:44:05 792

原创 多机多卡训练指南

五台电脑IP地址分别为:192.168.56.111~115组成局域网后有的电脑可以上互联网,有的不行。测试是否组成局域网。

2025-11-13 16:40:20 350

原创 Speculative Decoding/投机解码

并且,p(x)与 q(x)差距越大,p(x)/q(x)就越小,那么1-p(x)/q(x)就越大,拒绝的概率就越大。(接受率):在Speculative decoding中,接受率所刻画的是,在给定x<t前缀的情况下,模型生成的token 被接受的概率。对于p(x)< q(x)的x来说,p(x) - q(x) <= 0,再经过max(),值就置为零,那么这些token将永远不会被采样到。这里稍微注意下,前面的接受与拒绝,我们比较的是具体的token的概率值,这里调整的是token所在位置处的概率分布。

2025-11-13 16:31:19 786

原创 BAPO:自适应裁剪如何实现LLM策略优化的动态平衡

BAPO (Balanced Policy Optimization with Adaptive Clipping),从根本上改变了游戏规则。BAPO 摒弃了 PPO 僵化的固定裁剪区间,转而采用一种以目标为导向的自适应机制:它为每一次更新动态地调整裁剪边界,其核心目标是确保正向信号在总梯度贡献中维持一个健康的比例。

2025-11-13 10:38:45 752

原创 统一策略梯度估计器 (UPGE)将SFT和各种RL变体)的梯度计算统一表达,混合后训练 (Hybrid Post-Training, HPT)动态地、自适应地在SFT和RL两种学习信号之间进行切换

根据模型性能 P 动态决定的。论文中使用了一个简单而有效的开关函数:这里的 P 是模型在当前问题上 n 次采样(rollouts)的平均成功率。γ 是一个“门控阈值”(gate threshold)。如果模型的平均成功率 P大于阈值γ ,那么就设置 α=1, β=0。此时,总损失=LRL,模型完全通过强化学习进行更新。这表示模型在该问题上已经“入门”,可以开始进行探索性学习了。如果模型的平均成功率 P小于等于阈值 γ,那么就设置 α=0, β=1。此时,总损失=LSFT。

2025-11-06 16:52:02 923

原创 Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈

为了实现这一目标,他们提出了一个名为 LPPO(Learning-Progress and Prefix-guided Optimization) 的渐进式优化框架。

2025-11-06 14:38:24 726

原创 SFT 和 RL 融合:CHROD, LUFFY,UFT, PSFT

其中, SFT 损失,用于引导模型学习高质量专家数据;RL 损失(如 GRPO),用于优化任务相关的可验证奖励;μ为全局控制系数,用于动态平衡 SFT 与 RL 的相对权重。在训练初期设置 μ=0.9,以促使模型优先学习专家行为模式,快速建立基础能力;随后在前 200 个训练步中将 μ 逐步衰减至 0.05;此后保持μ 不变,使模型主要通过 RL 探索高奖励路径,避免过度依赖静态专家数据。此外,CHORD 对传统的 SFT 损失进行了改进,引入 token-level 动态加权机制。

2025-11-03 18:10:38 726

翻译 ASPO: PPO-clip的正样本 token 权重错配问题与影响:Hard Clip,Soft Clip, Dual-Clip,Dual-Token Clip

1.首先梳理了PPO-Clip中两个核心机制——Token-Masking 与 Importance-Sampling——的作用与设计初衷;2.然后从以上两个角度出发,审视了近半年来各类针对 PPO-Clip 的改进工作,分析其合理性及有效性;3.接下来通过实验证明在 GRPO 类算法应用于 LLM 训练时,重要性采样的分布调整机制并不重要,相反,这个重要性权重更可能是通过 token训练权重的机制对训练产生影响的。

2025-11-03 15:34:28 126

原创 GRPO训练的时候,会产生大量重复内容,如何调参改进

GRPO是PPO(Proximal Policy Optimization)的一种变体。它和DPO(Direct Preference Optimization)一样,都属于免强化学习(RL-free)的对齐方法,但思路却截然不同。简单来说,GRPO可以看作是PPO的轻量化、实用化版本,它试图在保持PPO强大优化能力的同时,规避其训练不稳定、实现复杂的问题。

2025-10-31 15:44:21 687

原创 强化学习参数技巧

熵的作用熵(策略熵)衡量模型的探索能力,训练初期熵较高时模型更倾向于探索多样行为,但随着训练深入熵通常会下降。若完全不加控制,可能导致‌熵崩塌‌(策略熵急剧下降),此时模型过度依赖已有策略而停止探索,影响性能提升。‌何时使用熵损失‌训练初期‌:建议添加熵损失以维持探索。例如在PPO算法中,通过引入KL惩罚或Clip-Cov方法限制高协方差token的更新,可避免熵过快下降。‌‌稳定期‌:若模型已收敛且性能稳定,可逐步减少或移除熵损失,避免过度探索导致性能下降。‌替代方案。

2025-10-31 11:29:38 252

原创 数据配比:SFT,PPO, RLHF等配比小技巧

实验设计:研究人员将每种 SFT 数据集(GSM8K RFT, Code Alpaca, ShareGPT)按 1 (全部), 1/4, 1/16, 1/64, 1/256 的比例进行采样,分别对 LLaMA 的 7B, 13B, 33B 模型进行微调,并观察其在对应评测基准上的性能变化。这有力地证明了该现象的普适性,它源于混合不同性质数据本身带来的影响(多样性带来的正则化 vs. 异质性带来的干扰),而非简单的“数据泄露”。k 值的大小直接影响到“唤醒”效果和对通用能力的干扰程度之间的平衡。

2025-10-30 19:55:29 883

原创 2-GRPO:两个样本就足够,其实就是在做对比学习

基于这一洞察,作者提出了2-GRPO——仅使用两个响应分组的GRPO变体。理论上,2-GRPO保持了无偏梯度估计;实验上,它在多个数学推理任务中与16-GRPO性能相当,同时将训练时间减少70%以上, rollout数量减少至1/8。这项研究不仅揭示了GRPO的内在机制,还为资源受限的LLM后训练提供了高效解决方案。

2025-10-29 20:33:48 833

原创 DCPO:让RLVR学会「动态裁剪」解决GRPO零优势零梯度和固定裁剪问题

解决了核心矛盾:DCPO 成功地在提升数据利用率和增强模型探索能力之间取得了平衡。SAS 机制通过引入历史信息,在不丢弃数据的前提下解决了零梯度问题;DAC 机制则通过概率自适应的裁剪边界,智能地鼓励模型探索稀有但有价值的推理路径。提升了训练效率:相较于 GRPO,DCPO 将数据利用率(RUR)提升了超过 60%;相较于 DAPO,其训练效率翻倍,大幅节省了计算资源。

2025-10-29 19:57:39 1200

原创 A2A:Agent2Agent 协议,

安全协作(Secure Collaboration):通过引入认证/授权机制,保证 Agent 之间的身份互信。任务状态管理(Task and state mgmt):实现了 Agent 之间互操作任务以及任务状态的可管理性。用户体验协商(UX negotiation):不同的 Agent 通过协商的方式,对用户提供无缝的体验。功能发现(Capability discovery):提供了 Agent 之间相互发现各自能力的机制。

2025-10-29 17:16:48 886

原创 表示微调(ReFT)

PEFT方法,例如,LoRA、DoRA和prefix-tuning,侧重于修改模型的权重或引入额外的权重矩阵。PEFT 方法如 LoRA 专注于减少可训练参数的数量,并更新模型权重的一小部分以适应模型。在 PEFT 中,变化是在序列中单个标记的表示上进行的。ReFT 受到对可解释性研究的影响,该研究在时间上重复使用表示,并直接编辑其中的一小部分。它使用编码在这样表示中的强大语义信息来调整模型。这些是针对特定任务的改变,是对表示的干预。您会注意到可训练的参数非常少,仅占模型总参数数量的 0.0004%。

2025-10-22 20:27:31 528

原创 verl训练拆解GRPO,PPO等训练原理,verl框架训练GRPO

在强化学习中,一个episode是指智能体(Agent)与环境(Environment)之间一次完整的交互序列。这个序列从智能体开始观察环境状态开始,然后根据其策略选择一个动作并执行,环境会给出新的状态和奖励,这个过程会一直重复,直到达到某种终止状态,比如游戏结束、任务完成或达到预定的步数。每个episode都是独立的,结束后会重置环境并开始新的episode。例如,在一个简单的迷宫游戏中,一个episode可能包括智能体从起点开始,经过一系列的移动,最终达到终点的整个过程。

2025-10-20 18:06:28 1139

原创 flash-attention连环问答--softmax 、safe softmax 、online softmax

其中 Q,K,V 都是 N * dk 的 2D 矩阵,N 为序列长度,dk 为头的维度。

2025-10-20 17:59:34 977

python打印圣诞树,christmas

基础版:用*打印 升级版:turtle画出来 终极版:pygame加载音乐动态

2023-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除