
强化学习
文章平均质量分 95
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
公众号:毛毛AIGC。欢迎关注进一步交流!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入解析 Qwen3 GSPO:一种稳定高效的大语言模型强化学习算法
本文提出GSPO算法,通过序列级重要性采样和长度归一化,解决了GRPO在语言模型强化学习训练中的稳定性问题。GSPO将重要性采样从token级别提升到序列级别,与奖励单位保持一致,显著减少了噪声累积和梯度方差。实验表明,GSPO在训练效率、稳定性方面优于GRPO,特别在处理长序列和混合专家模型时表现突出。该算法已成功应用于Qwen3模型的训练,提升了数学推理、编程和长文本生成能力,简化了RL训练基础设施设计,为大型语言模型强化学习提供了更稳健高效的解决方案。原创 2025-08-18 17:13:07 · 78 阅读 · 0 评论 -
KTO原理与代码实现全解析:人类行为理论驱动的大模型对齐
本文介绍了一种基于前景理论的大模型对齐方法KTO(Kahneman-Tversky Optimization),其核心是通过行为经济学的价值函数设计来优化人类感知效用。KTO创新性地将损失厌恶系数(λ=2.25)和风险敏感系数(α=0.88)融入奖励函数,实现分段优化:收益区域采用凹函数(边际递减),损失区域采用凸函数(放大损失厌恶)。关键技术包括滑动窗口KL散度估计参考点z0,通过错位配对和流式更新确保数值稳定性。完整方案包含数据预处理、模型训练和参考点动态估计等模块,为AIGC对齐提供了新思路。原创 2025-07-24 19:02:20 · 38 阅读 · 0 评论 -
自然语言指令驱动的工业机器人协同学习系统:大语言模型如何重塑智能体协作范式
本文提出一种突破性多智能体系统方案,通过“环境状态符号化建模+技能API原子化设计”双引擎架构,解决传统系统在语义理解、动态协同和自适应学习方面的瓶颈。核心技术包括运动语义解析器(自然语言→动作模板)、函数编码映射器(生成可执行代码)及自主检索增强器(失败自修复)。实测显示,该系统在模糊指令理解准确率(提升84%)、新场景适应速度(加快300倍)和多机协同效率(吞吐量提升40%)上实现显著突破,为智能制造等领域提供新一代智能体解决方案。原创 2025-07-15 10:49:42 · 93 阅读 · 0 评论 -
AI 代理介绍与应用
记忆流(Memory Stream)是生成式代理架构中的一个组件,它是一个长期记忆模块,记录了代理的经历和与环境的交互。记忆流以自然语言的形式呈现,包含了代理的观察、行为、对话和其他与环境相关的信息(以及长期计划(Plan)和更高层次的反思(Reflect)的输出)反应和更新计划(Reacting and Updating Plans)是指代理根据当前的情境和观察到的事件来决定是否继续执行当前的长期计划,或者需要根据新的观察进行反应和更新计划。这些复杂行为和自发事件是由代理之间的互动和环境的变化所驱动的。原创 2023-10-21 08:51:36 · 618 阅读 · 0 评论 -
阿里热线小蜜——实时语音对话场景下的算法实践
在今天的人机交互中,语音语义技术扮演着关键的角色。其准确性直接影响用户体验,精准的语音识别带来更加流畅的交互,从而实现更好的用户满意度。挑战一:口语化用户在语音交互中的表述通常充满了模糊、冗长和不连贯的特点,还可能受到自然环境和噪声干扰。这使得语音识别更加困难。挑战二:多模态与文本不同,语音对话不仅仅包含文字信息,还涵盖了语气、情绪、背景环境等更多的元素。这些信息对于理解用户意图至关重要。挑战三:双工化语音对话通常不是简单的问答形式,而是复杂的双向交流。原创 2022-03-20 17:55:08 · 4429 阅读 · 0 评论 -
论文阅读:《Deep Reinforcement Learning for Dialogue Generation》
原文:https://blog.youkuaiyun.com/liuchonge/article/details/78749623文章亮点本文是使用深度增强学习DRL的方法来解决多轮对话问题。首先使用Seq-to-Seq模型预训练一个基础模型,然后根据作者提出的三种Reward来计算每次生成的对话的好坏,并使用policy network的方法提升对话响应的多样性、连贯性和对话轮次。文章最大的亮点就在于定...转载 2018-11-06 20:34:27 · 469 阅读 · 0 评论