- 博客(37)
- 收藏
- 关注
原创 【科普】模型,到底是个什么玩意
最后,让我们回到开头的问题。如果面试官再问你:“模型到底是什么?”,你可以尝试这样清晰地回答:从物理形态上说,一个训练好的模型 =网络结构定义(代码)权重参数文件(数据)。从数学本质上说,模型是一个高维的、参数化的复杂函数。它通过构建一个计算图(神经网络)来定义计算路径,并通过在海量数据上的梯度下降优化,找到了一组最优的参数组合。这组参数,实际上就是模型对数据分布规律的一种概率近似。输入经过这个参数化的计算图流动,最终输出了我们想要的任务结果。🌝。
2025-12-25 16:28:36
554
原创 【深度硬核】AI Infra 架构漫游指南
CPU 是为复杂的逻辑控制和低延迟设计的,而 GPU 是为大规模并行计算设计的。传统的 CUDA Core 擅长处理 FP32 标量运算。而大模型训练的核心是矩阵乘法(GEMM)。H100 中的第四代专门为矩阵运算设计,它能在在一个时钟周期内完成DA×BCDA×BC的矩阵运算。H100 SXM 在 FP8 精度下的稀疏算力高达。这意味着每秒近 4000 万亿次浮点运算。这是软硬结合的典范。
2025-12-24 21:43:07
931
原创 强化学习的入门模型:多臂老虎机
想象你站在一家赌场里,面前有一台奇怪的老虎机。它不是只有一个拉杆,而是有kkk个拉杆(比如k10k=10k10动作 (Action):每一轮,你可以选择拉动其中一个拉杆。奖励 (Reward):拉动后,你会得到一定数量的金币。规则每个拉杆吐钱的概率分布不一样。有的拉杆很大方(平均给10块),有的很吝啬(平均给1块)。关键问题:你完全不知道哪个好,哪个坏。你的目标:在有限的次数内(比如拉1000次),通过策略赢走尽可能多的金币。红线 (Greedy,ε0ε0表现。
2025-12-24 18:26:53
966
原创 大型语言模型中奖励模型的原理:训练、打分与更新
在大型语言模型(LLMs)的对齐技术中,基于人类反馈的强化学习(RLHF)扮演着关键角色。其中,是核心组件,用于评估生成文本的质量。本文聚焦 RM 的核心原理,包括其训练过程、打分机制,以及在 RLHF 更新中的应用,特别是信用分配问题。我们将基于标准 RLHF 框架(如 OpenAI 的 InstructGPT)进行说明,避免过多工程细节,强调原理性理解。
2025-08-22 13:26:21
884
原创 Critic 头更新的关键公式及其解释
Critic 需要一个“正确答案”来学习,这个“正确答案”就是。,Critic 网络就能不断学习并提供更准确的状态价值估计。通过对这个损失函数求梯度并更新 Critic 网络的参数。Critic 训练的目标是让它的预测值。时,通常会推导出一个对应的价值目标。当使用 GAE 计算优势函数。尽可能接近计算出的价值目标。
2025-08-22 11:51:09
902
原创 从策略梯度到PPO:核心推导与原理
小超参数 (如 0.1, 0.2),定义裁剪范围。为了利用旧数据,我们需在策略变化小时做以下。TRPO/PPO 优化一个代理目标。: 估计的优势函数 (通常为。代入 Eq. 2,对动作。的范围,确保策略更新稳定。) 采样数据,优化新策略。的高方差问题,通过限制。处与真实策略梯度匹配。
2025-08-22 11:37:00
968
原创 【全面推导】策略梯度算法:公式、偏差方差与进化
摘要:本文整合了强化学习策略梯度算法的推导过程,从基本到代理目标。重点包括每个算法的数学公式推导、转变原因,以及偏差和方差的详细分析(含推导式)。偏差指估计的系统性误差,方差指随机波动。非采样(轨迹序列相关性)的影响也被纳入,作为方差偏差的扩展讨论。这一进化路径体现了从高方差无偏差(风格)向低方差有偏差(风格)的转变,旨在平衡准确性和稳定性。
2025-08-19 15:30:40
1374
原创 褪去轨迹依赖:从Monte Carlo到Actor-Critic
REINFORCE (MC PG) → REINFORCE with Baseline (仍MC) → Actor-Critic (TD-based) → 高级如PPO/TRPO (添加信任区域)。
2025-08-19 11:07:10
1034
原创 PPO、CISPO 和 DAPO 算法中的 Clip 机制对比讨论
PPO 的对称 Clip 提供下界稳定(公式minKLminKL),但易阻塞。CISPO 的宽低端 +sg原理聚焦显式探索(公式sgclip⋅logπθsgclip⋅logπθ),适合多样性任务。DAPO 的宽高端 + 解耦原理聚焦高效传递(公式min\minmin+ 采样),适合长 CoT。两者不对称设计是 RLHF 创新,提升 10–15% 性能。后续会持续产出AI领域算法论文。
2025-08-18 12:56:33
2493
1
原创 【损失函数】完全解析(两万字解读)
在浩瀚的数据海洋中,机器学习模型如同经验丰富的航海家,试图从纷繁复杂的现象中找出规律,预测未来,或识别模式。然而,模型如何知道自己是否“学得好”?它如何调整航向,避免迷失?答案在于一个看似简单却至关重要的概念——损失函数(Loss Function),也被称为代价函数(Cost Function)或目标函数(Objective Function)。损失函数是机器学习模型学习过程中的“度量之魂”,它量化了模型预测值与真实值之间的“不一致”或“错误”程度。这个数值是模型进行优化的核心依据,指引着模型参数的调整方
2025-08-18 12:11:59
926
原创 【论文解读】监督微调(SFT)的梯度与强化学习策略梯度的关系分析——DFT(SFT+RL)
从SFT的目标函数LSFTθExy⋆∼D−logπθy⋆∣xLSFTθExy⋆∼D−logπθy⋆∣x)]∇θLSFTθExy⋆∼D−1πθy⋆∣x∇θπθy⋆∣x∇θLSFTθExy⋆∼D−πθy⋆∣x1∇θπθy⋆∣x此形式与强化学习中的离线策略梯度。
2025-08-17 16:07:18
1114
原创 大模型CISPO算法详细原理万字解析
CISPO的核心原理:CISPO本质上是“加权REINFORCE优化”(),直接通过显式AtlogπθAtlogπθ调整策略概率分布,用IS权重rtr_trt作为乘子校正off-policy偏差,并通过确保梯度始终流动到logπθlogπθ。这保留了原始梯度的方向和幅度(信息分辨率高),促进探索性和熵稳定,特别适合RLHF中需要保留高优势token全强度的长序列任务。核心创新是sg:它将clip。
2025-08-17 14:48:02
1223
原创 强化学习奖励函数设计有没有什么经验之谈?
你的自定义奖励导致性能倒退,可能是因为奖励尺度不均、误导行为或噪声干扰。回退到简单奖励:用任务核心目标(如完成+1,失败-1),验证算法是否正常。检查误导行为:录制代理行为,打印奖励分布,定位问题。归一化与势函数:将奖励归一到[-1, 1],用势函数添加辅助奖励。小规模实验:每次调整奖励后跑短训练,快速迭代。参考社区:找类似任务的开源奖励函数,微调使用。
2025-08-16 12:53:01
1381
原创 深度强化学习是否违背样本独立原则?
是的,深度强化学习(Deep Reinforcement Learning, DRL)在数据生成和训练过程中确实违背了传统深度学习中的样本独立原则(IID 假设,即独立同分布假设)。在深度学习中,我们假设训练样本是从一个固定概率分布pxy中独立抽样得到的。xiyipxiyi∣xjyjpxiyiijpxy为什么需要 IID 假设?∇θEpxyLθ;
2025-08-16 12:09:55
1020
原创 【强化学习全景系列 之十五 · 终章】星辰大海:RL的未来与其他疆域
亲爱的决策智能探索者们:当您翻开这最后一页时,我们共同的“强化学习全景之旅”已然驶向了终点。从第一季,我们初识RL这门古老而又年轻的“决策的艺术”,用马尔可夫决策过程(MDP)这套通用语言为世界建模;到第二季,我们深入无模型学习的腹地,在蒙特卡洛的“复盘”与时序差分的“预见”中,见证了Q-Learning与SARSA两条寻宝路的智慧;再到第三季,深度学习的翅膀让RL得以飞跃,从DQN睁眼看世界,到策略梯度的另辟蹊径,再到的珠联璧合与PPO。
2025-08-15 10:35:05
387
原创 【强化学习全景系列 之十四】探索的艺术:如何让AI永葆好奇心?
如何将“好奇心”这个模糊的概念转化为可计算的数值?好奇心源于对世界的预测失误。如果一个智能体能够完美预测其行为将导致的后果,那么这个世界对它来说就是无聊的、确定的。反之,如果一个地方发生的事情总是出乎它的“意料”,那么这个地方就是新奇的、值得探索的。基于这个思想,内在好奇心模块(Intrinsic Curiosity Module, ICM)(Pathak et al., 2017) 被提出,并成为了该领域的里程碑式工作。
2025-08-15 10:33:35
616
原创 【强化学习全景系列 之十三】模型为王:当AI拥有“想象力”——基于模型的强化学习
本章,我们踏上了强化学习的另一条重要道路——基于模型的强化学习。我们理解了它与Model-Free方法的根本区别,并深入探讨了其核心优势(超高的样本效率)和致命软肋(模型误差累积)。我们从经典范式Dyna-Q出发,看到了现实与想象相结合的初步力量,理解了如何通过“规划/排练”来加速价值的传播。我们步入了深度学习时代,见证了如何利用VAE和RNN来构建一个能在高维潜在空间中“做梦”的智能体,实现了感知、预测与控制的解耦。最终,我们登上了当前的巅峰,解构了MuZero。
2025-08-15 10:32:38
321
原创 【强化学习全景系列 之十二】从RLHF到DPO:强化学习如何驯服语言巨兽?
我们已经加冕PPO为“现代RL的王者”,并领略了它那无与伦比的稳定性。现在,我们将进入本系列迄今为止最激动人心、也最前沿的应用场景。。在ChatGPT等模型横空出世的背后,强化学习扮演着至关重要的“驯兽师”角色。本章,我们将把PPO的知识无缝对接到大模型对齐上,系统性地拆解**基于人类反馈的强化学习(RLHF)**的完整流程,并由此出发,探索其痛点,最终引向更先进、更高效的新范式革命。
2025-08-14 10:23:53
760
原创 【强化学习全景系列 之九】策略梯度:另辟蹊径,不问价值,直接学习“怎么做”
本章,我们将探索一种全新的、更符合“直觉”的强化学习范式。幸运的是,数学家们为我们提供了一块神奇的“罗塞塔石碑”,让我们能够在一个看似不可微的过程中,计算出这个关键的梯度。梯度的波动极大,导致训练过程非常不稳定,收敛速度极慢,就像在惊涛骇浪中驾驶一艘小船,忽左忽右,很难找到正确的航向。策略梯度方法为我们描绘了一幅美好的蓝图,但REINFORCE和它那恼人的高方差问题告诉我们,前方的路依然坎坷。我们将一起推导它背后的神奇“指南针”——策略梯度定理,并理解它为何如此强大,又为何饱受“情绪不稳定”的困扰。
2025-08-13 10:32:13
415
原创 【强化学习全景系列 之十】Actor-Critic:强强联合,演员与评论家的终极协作
后来,研究者发现,A3C的“异步”特性并非其成功的关键,真正关键的是它收集了多样化数据后进行批量更新的思想。在下一章,我们将迎来本系列的高潮,介绍一个被誉为“现代强化学习王者”的算法,它正是建立在Actor-Critic和信任域思想的坚实基础之上,以其无与伦比的稳定性和高效性,成为了工业界和学术界最信赖的算法之一。我们不再像DQN那样,精于算计每一个动作的价值,而是直接训练一个策略网络,让它像一个拥有“直觉”的武林高手,凭感觉出招。我们真正关心的,不是一个动作的绝对价值,而是它相对于这个状态下其他动作的。
2025-08-13 10:32:01
360
原创 微积分常用泰勒公式(麦克劳林公式)大合集
泰勒公式的核心思想是:用一个多项式函数来逼近一个在某点附近具有任意阶导数的光滑函数。当这个点选在x00x_0 = 0x00时,这个特殊的泰勒公式就被称为麦克劳林公式。在求极限的场景下,我们绝大多数时候使用的都是麦克劳林公式。一个函数fxf(x)fx在x0x=0x0fxf0f′0xf′′02!x2f′′′03!x3⋯fn0n!f′′0x2。
2025-08-12 11:47:58
6012
原创 深入浅出:微积分常用等价无穷小公式大合集
在自变量的同一变化过程中(例如,x→0x \to 0x→0或x→∞x→∞),若两个无穷小量αx\alpha(x)αx与βx\beta(x)βxlimx→aαxβx1x→alimβxαx1我们就称αx\alpha(x)αx与βx\beta(x)βx是等价无穷小,记作αx∼βxαx∼βx。
2025-08-12 11:36:26
6835
原创 【强化学习全景系列 之八】DQN:里程碑,让AI睁眼看世界,玩转雅达利游戏
本章,我们将讲述一个激动人心的故事:当强化学习遇到了深度学习,当古老的Q-Learning思想被赋予了神经网络的强大“大脑”时,迸发出了怎样璀璨的火花。它们是如此的优雅和强大,让我们相信,只要有足够的时间去探索,我们就能在任何一个有限的世界里找到最优的路径。我们手中的Q表格,这个看似万能的工具,在浩瀚的状态空间面前,显得如此脆弱和渺小。它的成功是震撼性的,但它远非完美。经验回放机制,巧妙地将强化学习的“在线”决策过程与监督学习的“离线”训练过程解耦,是DQN能够稳定学习的第一个,也是最重要的支柱。
2025-08-12 10:53:24
665
原创 【强化学习全景系列 之七】 Q-Learning vs. SARSA:通往最优策略的两条寻宝路
用一个参数化的函数来替代那张硕大无朋的Q-Table,从而将我们之前学到的所有思想(Q-Learning、经验回放等)应用到更广阔、更复杂的现实世界中。我们告别了蒙特卡洛(MC)方法那种必须等到“尘埃落定”才能学习的漫长等待,学会了“走一步,看一步”,在每一步的经验中汲取智慧。它相信,无论现实中犯了多少错、走了多少弯路去探索,它的内心始终有一个对最优路径的坚定信念,并且用这个信念来指导自己的学习。这两种算法,就像两位性格迥异的寻宝者,沿着TD铺设的道路,去寻找埋藏在状态空间深处的最优策略宝藏。
2025-08-12 10:52:57
428
原创 【强化学习全景系列 之六】 走一步,看一步:从不完整经验中学习的时序差分智慧
在之前的篇章中,我们已经为强化学习的世界构建了坚实的地基。尽管它是有偏的,但这种“走一步,看一步,随时修正”的策略,让智能体能够更快地适应环境,形成一个虽不完美但足够有效的价值判断体系。它巧妙地结合了动态规划的“自举”(Bootstrapping)思想和蒙特卡洛的“无模型”(Model-Free)特性,让我们能够在不完整的经验中,每时每刻都进行学习和反思。智能体就像一个时刻在反思的棋手,每落一子,不等到终局,就根据棋盘上的新变化和自己对新局面的判断,立即微调对上一步棋价值的评估。,是我们自己的“观点”。
2025-08-12 10:28:54
759
原创 【强化学习全景系列 之五】蒙特卡洛:不到黄河心不死,从完整经验中学习
这种“事后诸葛亮”式的、完全基于完整经验进行学习的方法,就是强化学习中大名鼎鼎的、无模型学习的开山鼻祖——**蒙特卡洛(Monte Carlo, MC)**方法。现在,让我们从规划的“象牙塔”中走出来,回到更具挑战也更真实的现实——我们被扔进一个“黑盒”游戏,不知道规则,没有说明书,世界的运转充满了未知。换言之,我们能否将MC方法从真实经验中学习的优点,与DP方法利用已有估计值进行自举更新的优点结合起来,创造一个既能无模型学习,又高效、低方差的“混血儿”?因此,MC的估计是“耿直的”、“诚实的”。
2025-08-12 10:28:12
1034
原创 【强化学习全景系列 之四】上帝视角:动态规划,当你知道世界的所有规则
今天,我们将探讨一个理想化的情境:如果智能体真的拥有了这种“上帝视角”,即它对世界的每一个角落、每一条规则都了如指掌时,我们能做什么?这就像下棋时,你不仅知道棋子怎么走,还拥有了一本“天书”,上面记录了你走任何一步后,对手所有可能的应对方式及其概率,以及每种应对会带来的直接得分。策略迭代非常强大,但它的“评估”步骤需要进行多次完整的迭代才能收敛,计算成本较高。策略迭代的收敛性是有保证的,因为每一步的策略改进都确保了新策略的价值不会低于旧策略(策略改进定理)。完全相同时,说明我们已经无法再找到更好的策略了。
2025-08-11 09:58:40
928
原创 【强化学习全景系列 之三】宇宙基石:贝尔曼方程的递归之美
贝尔曼最优方程清晰地定义了我们算法的收敛目标。当我们的价值函数满足这个方程时,我们就知道已经找到了最优解。
2025-08-11 09:58:25
1075
原创 【强化学习全景系列 之二】目标:我们要的到底是什么?回报、价值与最优策略的蓝图
在上一篇中,我们用马尔可夫决策过程(MDP)构建了强化学习的世界观。我们知道了智能体(Agent)在一个充满状态(State)和动作(Action)的世界里游荡。但它游荡的目标是什么?它如何判断自己当前的位置是“富人区”还是“贫民窟”?又如何判断下一步是“康庄大道”还是“万丈深渊”?今天,我们将深入探讨RL的“欲望”与“智慧”:定义智能体的终极追求——回报(Return),并引入它衡量未来的“GPS导航系统”——价值函数(Value Functions)。所有智能决策的核心,都有一个清晰的目标。在强化学习中
2025-08-10 10:34:15
710
原创 揭秘强化学习“当红炸子鸡”:PPO算法完全指南
这就是PPO(近端策略优化)——当今强化学习领域使用最广泛的算法。本文将带你深入了解其优雅的核心思想:如何通过简单的“限制”来确保稳定、高效的学习。无论你是初学者还是资深玩家,这篇清晰易懂的指南都将是你理解PPO、提升AI项目性能的必读之选。
2025-08-09 08:27:54
532
原创 重磅!GSPO深度解析:告别模型崩溃,下一代大模型强化学习算法
告别模型崩溃!下一代大模型强化学习算法GSPO来了。它用一个看似简单却极其深刻的范式转变——从“词元”到“序列”——解决了困扰业界的稳定性难题。这篇文章将带你用公式和原理解析,看懂这场正在发生的RL革命。
2025-08-09 08:15:17
1477
原创 DAPO深度解析:破解顶尖AI的“黑箱”,一套完全开源的强化学习系统
顶尖AI的强化学习“独家秘方”公开了!字节DAPO不仅刷新SOTA记录,更将背后四大核心技术(解耦裁剪、动态采样等)连同代码全部开源。普通开发者复现顶尖AI不再是梦!
2025-08-08 18:48:07
616
原创 强化学习“信赖”指南(深度版):深入浅出理解TRPO算法
还在为强化学习训练中策略的“反复横跳”和“突然崩盘”而头疼吗?本文将为你深度揭秘强化学习领域的定海神针——TRPO算法。我们将带你告别传统策略梯度方法中选择步长的“玄学”,深入探索TRPO如何通过划定一个巧妙的“信赖域”(Trust Region),确保每一次学习和更新都朝着正确的方向稳步前进。文章不仅用生动的比喻解释了其核心思想,更进一步代入了关键的数学公式,为你清晰解读KL散度、替代优势函数以及强大的自然梯度是如何协同工作的。
2025-08-08 17:30:33
785
原创 数据侦探:一份友好的参数点估计指南
数据科学的核心,是从局部推断全局。本文用生动的“侦探破案”比喻,深入浅出地讲解了参数点估计的全部核心概念。你将清晰地理解:什么是点估计:科学的“猜谜”艺术。两大核心方法:直观的矩估计法 (MoM) vs. 严谨的最大似然估计 (MLE)。无论你是数据新手还是希望巩固概念的同学,这篇指南都将为你解密统计推断的基石。
2025-08-08 15:39:54
958
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅