
LLM 强化微调:深度诊疗、广泛探索、可行反思
文章平均质量分 93
1
Debroon
致力于AI(未来最有生产力)和WEB3(未来最有消费力),偏 AI 医疗、深度学习和强化学习(对标DeepMind)。
WEB3 投研科学家系统性心得,让天下没有痛苦的创业者和家庭,让自己越来越自由。
展开
-
DeepSeek-R1 - 百元复现 R1 深度推理逻辑链:通过纯强化学习提升大模型推理能力,对于真正的强 AI (AGI/ASI),要放弃人类评审,让TA学会自我评估与博弈
直接在简单明确的奖励标准下进行强化学习,而不再借助传统的“奖励模型”作为中介。这种“去奖励模型”的做法,可以让模型在微调过程中,直接面向真实目标(如解数学题是否正确、编写代码是否能运行)进行自我优化,大幅提升推理和解题能力。原创 2025-02-08 17:10:10 · 1627 阅读 · 0 评论 -
深度强化学习基础 0:通用学习方法
概率图模型在统计推断(如Bayesian推断、最大似然估计)方面有完善的理论和工具,因此能与RL中的探索—利用(exploration-exploitation)过程自然结合。环境根据动作(at)和当前状态(st)给出下一时刻状态(st+1)及相应的奖励(rt),然后智能体再继续与环境交互……任何随机性、噪声、对未来的不确定,都能融入到这条“状态演化”的概率分布里,并且与奖励、动作紧密结合。没有限定状态空间、动作空间、奖励形式、策略结构、环境类型(确定性/随机性/部分可观测...)。原创 2025-04-09 11:39:38 · 658 阅读 · 0 评论 -
AlphaZero-复现 o1 成功:类 AlphaZero 的方法能迁移到 LLM 多步推理上,树搜索 + 用学到的价值网络替代自评,解决多步推理不可靠、无法深度规划
总体解法:将 AlphaZero 的核心思路(蒙特卡洛树搜索 + 价值网络)与大语言模型(LLM)相结合,在推理和训练两个阶段,利用树搜索来指导多步推理或复杂决策过程。UsaQsacpuct⋅Psa∑bNsb1NsaUsaQsacpuct⋅1NsaPsa∑bNsb( Q(s,a) ) 表示此动作在过去搜索中的平均值;( P(s,a) ) 表示策略先验(来自 LLM 的输出分布);原创 2025-02-18 11:59:50 · 2227 阅读 · 0 评论 -
rStar-Math:蒙特卡洛搜索增强 LLM 逻辑推理能力
本文提出了一种名为rStar-Math的创新方法,旨在提升小型语言模型(1.5B-7B参数)的数学推理能力。该方法通过结合蒙特卡洛树搜索(MCTS)和代码辅助的多步验证,让小型模型能够进行深度推理。核心创新点包括:1)使用代码执行验证中间推理步骤的准确性;2)开发过程偏好模型(PPM)对推理步骤进行细粒度评估;3)构建多轮自我进化框架,通过迭代训练不断提升模型性能。实验表明,该方法能使7B参数模型在MATH等数学竞赛数据集上取得与更大规模模型相媲美的表现。研究发现小型模型具备自我反思能力,能纠正错误推理路径原创 2025-05-26 15:30:55 · 1087 阅读 · 0 评论 -
链式思维模型可能并非如我们所想,如果中间语义推理可以乱写.....
摘要:本文探讨了链式思维模型(CoT)在大模型中的有效性,特别是中间推理步骤对最终答案准确性的影响。研究通过实验对比了仅答案训练、正确轨迹训练和随机轨迹训练三种方法,发现即使中间推理步骤与问题不匹配,模型性能仍可能提升。这表明中间推理的语义正确性并非模型性能提升的关键因素,而可能是提示工程的作用。研究还指出,模型输出的推理链不一定反映其内部计算过程,警示对模型“自我思考”能力的过度解读。核心发现包括:中间推理序列能提升准确率,但无需严格对应问题;随机推理轨迹亦可能带来提升;生成的推理文本未必反映真实内部过程原创 2025-05-23 15:18:44 · 1051 阅读 · 0 评论 -
让大模型像人类一样,边搜索+边提炼:非常医疗诊疗的循证支持
论文《Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs》提出了一种名为AutoRefine的新框架,旨在解决大语言模型(LLMs)在检索增强推理中的局限性。传统方法通常只关注最终答案的正确性,而忽视了检索和提炼过程的质量。AutoRefine通过引入“search-and-refine-during-think”范式,显式地增加了信息提炼步骤,并结合检索奖励和答案奖励,利用强化学习算法(GRPO)原创 2025-05-20 10:33:08 · 1099 阅读 · 0 评论 -
CoD:利用诊断链实现可解释的医疗Agent
在使用大型语言模型(LLMs)进行医学诊断时,一个主要问题是其决策过程的“黑箱”性质,使得医生和患者难以理解和信任模型的诊断结果。为了解决这些问题,提出了一个名为“诊断链”(CoD)的新方法,旨在通过一系列明确的步骤提高LLMs的透明度和可解释性。CoD(诊断链)的目的是通过提供一个模拟医生诊断思维的透明诊断链来增强大型语言模型在医学诊断中的可解释性。CoD通过将复杂的诊断决策转化为一个分步骤的透明和可解释的诊断链来解决这一问题。诊断任务涉及使用明确的(自述的)和隐含的(询问的)症状来预测疾病。原创 2024-07-23 17:00:25 · 1403 阅读 · 0 评论 -
HuatuoGPT-o1:基于40K可验证医学问题的两阶段复杂推理增强框架,通过验证器引导和强化学习提升医学模型的推理能力
A: 首次在医学领域引入可验证问题和医学验证器来发展复杂推理能力,通过两阶段训练方法:先利用验证器指导搜索得到复杂推理轨迹,再用强化学习进一步增强推理能力。A: 复杂推理(平均712个令牌)获得3.6点提升,而简单推理(281个令牌)只有2.6点提升,说明更长的推理过程提供了更丰富的学习信号。正例:一个关于疟疾并发症的诊断案例,模型通过多步推理,考虑症状(发热、寒战)、实验室检查结果,最终得出脑水肿的结论。A: 这是经过严格筛选的高质量问题集,能够有效训练模型的推理能力,同时保持计算资源的合理使用。原创 2024-12-31 11:52:27 · 2061 阅读 · 0 评论 -
o1 医学推理:基于推断时长扩展与旅程学习,仅用 500 条蒸馏示例,实现 6%~11% 性能提升
推断时长扩展(Inference-timeScaling)」指的是在语言模型推断阶段,通过更长的推理链或多轮迭代来处理复杂问题;如同让模型在回答前先“想得更深、更细”才给出最终结果。该方法基于模型已有的语义与知识结构,但强调「多步连贯推理」。越复杂的任务,越需要更长、详细的思考过程。若模型基础能力不足(参数规模或领域知识欠缺),延长思考时间可能适得其反。在医学推理等高难度场景下,推断时长扩展与适当训练策略结合,可显著提升模型的实用性。原创 2025-01-20 10:46:36 · 884 阅读 · 0 评论 -
如何复现o1模型,打造医疗 o1:大模型自改进(Self-Improve / Revision)、左右互博 Self-Play 思路?
DeepSeek-R1 所谓“慢系统”,本质是让模型自然写出超长推理链 (因为 RL 回合数够多,Reward 主要看最终对错+格式),相当于一种纯后验策略:一边生成 COT,一边计算结果能不能通过,让模型在训练中逐渐形成了“先多想一会再回答”的习惯。与其把更多算力用在“训练/模型规模”上,不如把算力放到“推理时的搜索/迭代过程”上,也许可以在某些(尤其是难度中等或较简单)任务上取得与“大模型+一次性推理”相当的效果。如果没有后续改正机制,最终结果几乎必然出错。如果当前步骤答案是错的,后面的步骤都是错的。原创 2025-01-26 22:05:56 · 1358 阅读 · 0 评论 -
X-R1:训练医疗推理大模型
X-R1 是一个基于端到端强化学习(RL)的训练框架,旨在以低成本提升大模型的推理能力,特别关注“aha moment”式的推理觉悟。它支持多种规模模型(0.5B/1.5B/3B/7B),适用于数学、医学等多领域推理任务。在医疗推理方面,X-R1 使用高质量医疗数据集驱动 RL 训练,并以 GPT-4o-mini 作为奖励模型,自动化评估医学答案的语义正确性。通过奖励函数,模型学会“推理-作答”分离、格式规范和多步推理。数据集主要来自 FreedomIntelligence/medical-o1-verif原创 2025-05-15 15:51:04 · 857 阅读 · 0 评论 -
开源项目学习的最新方法,解决 LLM 长上下文限制,深度理解 Github 项目
本文介绍了两种学习开源项目的新方法,旨在解决大型语言模型(LLM)在处理长上下文时的限制。第一种方法是通过DeepWiki平台,用户只需输入Github项目链接,即可自动生成项目文档和代码解析,极大简化了代码阅读过程。第二种方法是结合本地工具Cursor和Gemini 2.5 pro,利用Gemini的深度推理能力和超长上下文处理技术,结合Cursor的RAG(检索增强生成)功能,适合深入学习大型项目。这两种方法为开发者提供了更高效的项目学习途径,减少了对手动代码阅读的依赖。原创 2025-05-15 08:25:01 · 175 阅读 · 0 评论 -
Satori:元动作 + 内建搜索机制,让大模型实现超级推理能力
相比同基座的纯指令微调模型,Satori-Qwen-7B 在数学和跨域推理测试中通常提升 2~10 个点。与此同时,模型只需要一个单体便能实现“自我搜索、自我纠错”,无需外部大模型做审校,也不必依赖昂贵的手动逐步标注。原创 2025-05-10 23:23:25 · 1400 阅读 · 0 评论 -
深度强化学习基础 1:以狗狗学习握手为例
狗狗所处的环境状况,比如主人伸出手掌的姿势、狗狗自身的姿势、周围的环境等。状态s描述了狗狗在特定时刻所感知到的环境信息。: 狗狗可以采取的行为,如抬起前爪、将爪子放在主人手上、坐下、站立等。这些是狗狗能够主动执行的所有可能行为。: 狗狗执行动作后获得的反馈。当狗狗正确抬爪握手时,获得骨头作为正向奖励;不握手则没有奖励;如果咬主人,则会受到负面惩罚。: 狗狗在特定状态下选择动作的行为准则。比如,当主人伸出手时(状态s),狗狗应该抬起前爪放在主人手上(动作a)的概率很高。原创 2025-04-07 16:01:29 · 618 阅读 · 0 评论 -
大模型五大阶段详解,基于人类反馈的强化学习 RLHF 详细分析
图中的蓝色箭头表示,前一阶段收集到的数据会被用于训练对应的模型(SFT 模型或 RM),最终经过以上循环,得到一个更贴近人类喜好、回答更可靠的大模型。这一阶段的目标是学习丰富的语义理解与生成能力,但模型输出仍然只基于词频与统计规律,并未引入来自人工的“内容质量”“价值观”或“安全性”等偏好。,学知识 — 通过将输入序列中的一部分作为上下文,预测下一个字,模型逐渐学习到了语言的统计规律和潜在的语义含义。数据、算力、模型参数,随着这三个因素的增加,模型的性能通常会提高,但这些因素的增长是相互依赖的。原创 2025-02-16 02:18:12 · 665 阅读 · 0 评论 -
从 GPT1 - GPT4 拆解
在实际应用中,这使得同一个模型可以在不同的情境下以不同的方式回答相同的问题,这非常有用,尤其是在需要模型适应多种对话风格和需求的场合。这种方法的优势在于它不需要针对每个任务训练一个完整的模型,只需要调整相对较小的提示部分,就可以引导同一个大模型完成不同的任务。提示学习方法的核心在于,通过给模型不同的指令或情境,可以影响模型的输出,使其更适合特定的用途或遵循特定的交流原则。单纯训练得到的模型并不可控,模型是训练集分布的拟合,当生成数据时,训练数据的分布极大影响生成内容的质量。原创 2024-01-18 21:20:43 · 3763 阅读 · 0 评论 -
优势演员-评论家算法 A2C
算法有 3 个网络(策略网络、价值函数-Q网络和V网络),我们最终目的不是计算 Q网络和V网络 的具体数值,而是差异(也就是优势网络A)。优势演员-评论家算法 通过分离策略和价值估计,并引入优势函数,提供更精细的价值估计,以及减少学习过程中的不稳定性。优势函数的目的并不是要精确计算 Q 和 V 的具体值,而是要找出哪些动作比平均动作好,哪些比平均动作差。算法用俩个不同的网络(Q网络和V网络)去,估计价值函数,反而会增大误差。但那些高手的觉知更精细,他们会觉知到自己的手指(尤其是食指)的状态。原创 2024-01-03 12:03:08 · 1707 阅读 · 0 评论 -
异步优势演员-评论家算法 A3C
这意味着每个工作者都可以在自己的环境副本中独立地进行学习,这增加了样本的多样性并加快了训练过程。第二张图在第一张图的基础上增加了并行化和分布式计算的概念,这是现代强化学习算法中用于加速训练和提高稳定性的常见技术。多个工作者同时探索不同的策略和环境,可以更快地覆盖更广泛的状态空间,而不必等待其他工作者完成。A3C 核心是,通过多个智能体(或称为“工作者”)在不同的环境副本中同时运行来加速学习过程。异步更新意味着全局网络不断地接收来自多个源的梯度信息,这可以导致更快的学习和更稳定的收敛。原创 2024-01-03 12:02:29 · 1518 阅读 · 0 评论 -
深度确定性策略梯度 DDPG
在DDPG中,有四个主要的神经网络 - Actor网络和Critic网络及它们各自的目标网络(Target Actor和Target Critic)。整个流程是一个循环过程,Actor和Critic网络的参数通过与环境的交互和优化器的更新不断地进行调整,以此来提升策略的性能。DDPG的核心思想是使用深度学习方法来逼近一个最优策略,同时通过经验回放和目标网络技术来解决数据相关性和学习过程中的不稳定问题,解决连续动作空间的问题。Critic网络通过比较预测的价值和实际获得的奖励来调整其参数,使预测更准确。原创 2024-01-03 12:02:08 · 2342 阅读 · 0 评论 -
软性演员-评论家算法 SAC
在图3a中,我们只看到了策略的原始形态,而在图3b中,我们看到了这个策略如何通过与Q函数结合来调整,以包含探索性。理论上,当智能体的学习收敛时,它的策略会反映出Q函数的结构,优先选择预期回报高的动作,同时保持对其他可能性的探索,这样做可以避免局部最优解,并适应环境的变化。SAC 算法通过鼓励探索(即不总是走看起来最优的路径)来找到多个好的解决方案,并且它比其他算法更不容易陷入局部最优解,因为它总是在寻找新的可能性。在这个图中,我们可以看到两个子图,3a和3b,它们展示了策略(π)和Q函数之间的关系。原创 2024-01-03 12:01:24 · 2748 阅读 · 0 评论 -
【强化学习战场谁为王?】近端策略优化算法 PPO、优势演员-评论家算法 A2C、异步优势演员-评论家算法 A3C、深度确定性策略梯度 DDPG、软性演员-评论家算法 SAC
您提到的演员-评论家 (Actor-Critic) 变种算法,包括 A2C (优势演员-评论家算法)、A3C (异步优势演员-评论家算法)、DDPG (深度确定性策略梯度) 和 SAC (软性演员-评论家算法),都是强化学习领域的重要算法。在需要快速迭代和处理大规模状态空间的任务中,A3C 和 PPO 可能表现更优。总结来说,没有一个算法可以称为“真正的王者”,因为每个算法都有其适用的场景。在处理连续动作空间的任务时,DDPG 和 SAC 可能是更好的选择。那我们一一介绍他们吧。原创 2024-01-02 12:38:51 · 5688 阅读 · 0 评论 -
【挑战全网最易懂】深度强化学习 --- 零基础指南
强化学习介绍离散场景,使用行为价值方法连续场景,使用概率分布方法实时反馈连续场景:使用概率分布 + 行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度 Q 网络 DQN演员-评论家算法:多智能体强化学习核心框架PPO 近端策略优化算法机器学习是把带标签的数据训练模型,使得预测值尽可能接近真实值。强化学习是通过和环境交互,奖励来训练模型,使得最后获取的奖励最大期望值。在强化学习中,机器基于环境做出行为,正确的行为能够获得奖励。以获得更多奖励为目标,实现机器与环境的最优互动。原创 2023-12-29 22:03:05 · 2631 阅读 · 0 评论 -
演员-评论家算法:多智能体强化学习核心框架
这可能导致智能体沿着曲面上的梯度盲目地寻找更高奖励的区域,这样的路径可能会很曲折,因为它会对每一个小波动都做出反应(打 X 的线)。在图中,如果我们将基线想象为一条穿过曲面的水平线,那么智能体的目标就是找到一个稳定的上升路径,而不是在每一个小坡度上都上下波动。如果低于基线,则相反。目标函数,所有时间步的状态-动作对,都使用同样的奖励进行加权,但同一个时间步当中,一部分动作是好的,另一部分是不好的。:随着智能体不断尝试和学习,它的策略会逐渐改进,最终找到一种策略,使它能在游戏中获得最高的奖励。原创 2023-12-28 19:38:04 · 1710 阅读 · 0 评论 -
【ChatGPT 默认强化学习策略】PPO 近端策略优化算法
引入基线之后,智能体在更新其策略时,会考虑与基线的差异,而不仅仅是奖励的绝对值。这可能导致智能体沿着曲面上的梯度盲目地寻找更高奖励的区域,这样的路径可能会很曲折,因为它会对每一个小波动都做出反应(打 X 的线)。在图中,如果我们将基线想象为一条穿过曲面的水平线,那么智能体的目标就是找到一个稳定的上升路径,而不是在每一个小坡度上都上下波动。这通常通过策略梯度方法实现,其中梯度由评论家的估计值指导。:随着智能体不断尝试和学习,它的策略会逐渐改进,最终找到一种策略,使它能在游戏中获得最高的奖励。原创 2023-12-28 13:05:55 · 2574 阅读 · 0 评论 -
【OpenAI Q* 超越人类的自主系统】DQN :Q-Learning + 深度神经网络
机器学习是把带标签的数据训练模型,使得预测值尽可能接近真实值。强化学习是通过和环境交互,奖励来训练模型,使得最后获取的奖励最大期望值。在强化学习中,机器基于环境做出行为,正确的行为能够获得奖励。以获得更多奖励为目标,实现机器与环境的最优互动。如教狗子握手的时候,如果狗子正确握手,就能得到骨头奖励,不握手就没有。如果咬了主人一口,还会受到惩罚。长此以往,狗子为了得到更多骨头,就能学会握手这个技能。强化学习和机器学习最大不同在于,环境未知,因为环境未知,所以我们不能通过大量数据得到决策。原创 2023-12-27 17:30:16 · 1732 阅读 · 0 评论 -
大模型 RLHF 实战!【OpenAI独家绝技RLHF!RLHF的替代算法DPO!Claude 暗黑科技 RAIHF!】
作者在训练 DPO 模型时省略了奖励模型训练的步骤,而是通过设计一种包含正负样本对比的损失函数,在训练过程中得到一个满足人类偏好的模型。意思是,可以通过一个加权的参考策略来构造一个新的策略,该策略会偏向于高奖励的行为,同时保持与参考策略的相似性。改进:RAIHF 是通过 AI 排序,而非人工排序数据集,训练出来的偏好模型PM的指引下迭代模型策略。正样本和负样本的对比,使得模型能够更好地学习到人类偏好的特征,从而提升了生成的质量。DPO:直接偏好优化算法,专门替代传统的基于奖励的 RL 方法。原创 2023-12-19 17:30:07 · 1499 阅读 · 0 评论