强化学习
文章平均质量分 95
HNU混子
欢迎光临本混混的文章铺子
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习的数学原理-04章 策略评估与策略优化
本文系统介绍了强化学习中的值迭代算法和策略迭代算法。值迭代通过迭代逼近贝尔曼最优方程的解,其本质是对最优策略状态值的随机近似。策略迭代则分为策略评估和策略改进两个阶段,通过交替执行这两个步骤逐步优化策略。分析表明,策略迭代由于准确估计状态值,其收敛速度优于值迭代,但计算成本较高。为此提出了n-step策略迭代作为折中方案,在状态值估计阶段只执行有限次迭代。两种算法都基于不动点理论保证收敛性,但策略迭代的更新策略更优,因而收敛所需迭代次数更少。原创 2025-09-29 00:10:39 · 907 阅读 · 0 评论 -
强化学习的数学原理-03章 贝尔曼最优公式
本文介绍了强化学习中贝尔曼最优公式的推导过程。首先定义了最优策略的概念,即对于任意状态都能获得最大状态值的策略集合。通过引入动作价值函数,建立了状态价值与动作价值的联系,推导出最优策略会赋予最高动作价值动作概率1的性质。基于此,将贝尔曼公式转化为贝尔曼最优方程,该方程可通过不动点迭代求解。最后通过网格世界示例展示了如何迭代计算最优策略下的状态值。整个过程揭示了如何通过数学方法求解强化学习中的最优策略问题。原创 2025-09-21 00:37:42 · 4271 阅读 · 0 评论 -
强化学习的数学原理-02章 贝尔曼公式
本文深入探讨了强化学习中的状态值(State Value)概念及其计算方法。状态值是衡量一个状态好坏的标量值,定义为该状态下的折扣回报期望值,与策略密切相关。文章通过网格世界的实例,解释了为什么使用折扣回报而非即时奖励来评估状态优劣,并介绍了折扣因子的作用。重点推导了贝尔曼公式的代数形式和矩阵形式,展示了如何通过奖励期望和状态转移概率来计算状态值。文章强调状态值在策略评估中的重要性,为后续策略优化奠定理论基础。原创 2025-09-20 20:22:58 · 4201 阅读 · 0 评论 -
强化学习的数学原理-01章 入门篇
本文介绍了强化学习的数学原理基础概念以及背景定义,是笔者强化学习专栏中的第一篇文章,再次感谢赵世钰老师的课程。原创 2025-09-14 23:59:39 · 4625 阅读 · 0 评论
分享