强化学习
文章平均质量分 93
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RLHF vs RLAIF vs RLVR:从“人类偏好”到“可验证奖励”
本文对比了三种强化学习对齐方法:RLHF(基于人类反馈)、RLAIF(基于AI反馈)和RLVR(基于可验证奖励)。RLHF依赖人工标注但质量高,RLAIF通过AI模型降低成本但可能产生偏差,RLVR则利用自动验证程序(如代码测试、数学答案比对)实现客观评估。RLVR在可扩展性和准确性方面优势显著,尤其适合结构化任务。文章还提供了技术实现框架和工程选型建议,指出RLVR是推理类大模型的重要发展方向。原创 2025-12-08 07:30:00 · 651 阅读 · 0 评论 -
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解
大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能够有效压缩模型规模,同时保持较高性能。原创 2025-10-21 07:00:00 · 969 阅读 · 0 评论 -
大模型必知基础知识:8、Transformer架构-如何理解学习率 Learning Rate
学习率(Learning Rate)是深度学习中的关键超参数,控制模型参数每次更新的步幅大小。本文通过"下山"比喻形象说明:学习率过大会导致模型在最优解附近震荡或发散;过小则收敛缓慢且易陷入局部最优。学习率的工作原理是结合梯度方向决定参数更新幅度(公式:w_new=w_old-η×∇L)。实际应用中需要平衡收敛速度和稳定性,初期可采用较大学习率快速下降,接近最优解时减小学习率精细调整。合理设置学习率能显著提升模型训练效率和最终性能。原创 2025-10-20 11:02:37 · 1401 阅读 · 0 评论 -
LLM协作告别文本形式:直接“脑对脑”,Cache-to-Cache实现语义瞬时传输
摘要:论文《Cache-to-Cache: Direct Semantic Communication Between Large Language Models》提出了一种突破性的LLM协作范式——C2C(Cache-to-Cache),通过直接交换模型内部的KV缓存(而非传统文本)实现高效语义通信。该方法解决了多LLM系统中文本传输导致的信息瓶颈、语义损失和计算开销三大痛点,利用神经网络模块(Fuser)实现跨模型缓存的语义对齐与动态融合。实验表明,C2C能保留90%以上的上下文信息,相比文本通信提升1原创 2025-10-15 06:45:00 · 1810 阅读 · 0 评论 -
DeepSeek V3 深度解析:MoE、MLA 与 GRPO 的架构革新
DeepSeek是由中国AI公司深度求索开发的大模型系列,其最新发布的DeepSeek-V3和DeepSeek-R1展现出卓越性能。V3采用创新的混合专家(MoE)架构和多头潜在注意力机制(MLA),在数学推理等任务上超越GPT-4等主流模型。R1通过强化学习优化,实现推理能力突破。该系列具有三大技术亮点:1)创新的GRPO算法提升训练效率;2)纯强化学习实现模型的自我进化;3)思维链技术增强推理能力。DeepSeek坚持开源策略,推动AI技术普惠化,其高性能、低成本特性有望重塑AI产业生态,加速AI在各行原创 2025-09-17 23:40:09 · 964 阅读 · 0 评论 -
DPO、GRPO强化学习人类偏好对齐:Qwen2.5模型 MS-Swift框架DPO、GRPO训练-实战案例
本文分享了基于Qwen2.5-7B-Instruct的DPO和GRPO训练脚本。DPO通过直接优化人类偏好数据实现模型对齐,无需独立奖励模型,支持单卡LoRA微调。GRPO是多卡优化方法,引入群组比较机制处理奖励偏差。两个方法均提供详细参数说明和运行指南,包括数据处理格式、训练配置和模型保存路径。脚本使用ModelScopeSwift框架,支持vLLM加速,适合不同规模的偏好优化任务。原创 2025-09-10 09:35:31 · 1457 阅读 · 0 评论 -
PPO强化学习人类偏好对齐生成:模型训练全流程企业级实战案例(策略模型、奖励模型、参考模型)
本文介绍了基于Qwen3-32B模型的PPO强化学习人类偏好对齐完整实现方案。项目包含两大核心模块:奖励模型和PPO训练器。奖励模型通过对比学习人类标注的偏好数据,预测回答质量分数;PPO训练器则通过策略梯度优化生成模型,结合KL散度约束防止模型偏离原始能力。实现中采用了GAE算法减少方差、梯度截断等技术确保训练稳定性。文章详细阐述了从数据准备、模型训练到评估部署的完整流程,包括奖励模型训练阶段和PPO优化阶段的具体实现方法。该方案可直接应用于生产环境,为对话系统优化提供了端到端的解决方案。原创 2025-09-09 10:43:14 · 1244 阅读 · 0 评论 -
大模型强化学习PPO、DPO、GRPO、GSPO算法深度对比:原理讲解-举例理解-代码案例实践
本文深入对比了四种大语言模型强化学习算法。PPO通过裁剪机制保证稳定训练但需奖励模型;DPO直接利用偏好数据避免奖励模型训练;GRPO引入群组比较提升多样性;GSPO选择性优化样本对提高效率。PPO稳定性好但复杂,DPO简单但依赖数据质量,GRPO增强多样性,GSPO结合多种优势但需调参。这些方法各有利弊,适用于不同场景,研究者可根据具体需求选择合适算法。原创 2025-09-08 07:45:00 · 1876 阅读 · 0 评论 -
大模型训练方法全面解析:SFT、RFT、TRPO、DPO、PPO、GRPO、RLH、RLHF技术深度剖析
大模型训练方法全面解析 本文系统介绍了当前主流的大模型训练和对齐技术,包括监督微调(SFT)、拒绝采样微调(RFT)、信任域策略优化(TRPO)、直接偏好优化(DPO)、近端策略优化(PPO)等。这些方法各有特点:SFT简单高效但数据依赖性强;RFT通过质量筛选提升输出质量;TRPO训练稳定但计算复杂;PPO是RLHF核心算法,平衡探索与利用。文章详细分析了各方法的实现原理、优势劣势及适用场景,为开发者选择合适的大模型训练策略提供参考。原创 2025-08-23 21:53:21 · 2053 阅读 · 0 评论
分享