- 博客(7)
- 收藏
- 关注
原创 强化学习的数学原理(6)Stochastic Approximation and Stochastic Gradient Decent
本文介绍了在方程未知情况下求解带噪声观测值的方法。重点分析了Robbins-Monro算法,该算法通过迭代方法逼近方程根,其中ak为正系数。文章指出该算法具有收敛性(未详细证明),并说明随机梯度下降(SGD)是Robbins-Monro算法的一个特例。这两种方法都适用于处理带噪声的观测数据求解问题,通过迭代优化逐步逼近真实解。
2025-11-10 19:38:11
127
原创 强化学习的数学原理(4)
本文介绍了两种求解马尔可夫决策过程的最优策略算法:值迭代和策略迭代。值迭代通过直接求解贝尔曼最优方程,交替进行策略更新(贪心算法)和值更新。策略迭代则分为两步:策略评估(计算状态值函数)和策略改进(基于状态值优化策略)。两种算法都能收敛到最优解,但实现方式不同。值迭代直接逼近最优值函数,而策略迭代通过不断改进策略来达到最优。文章简要说明了两种算法的数学原理和计算步骤。
2025-07-24 16:38:38
490
原创 强化学习的数学原理(3)
本文探讨了强化学习中最优策略的求解问题。首先定义了最优状态值和最优策略的概念,即每个状态值达到最优状态值的策略即为最优策略。重点介绍了贝尔曼最优方程(BOE)的推导过程,将最优策略求解转化为最值问题,通过选择动作价值最高的动作来确定最优策略。针对复杂问题,提出了基于矩阵形式的解法,将其视为不动点方程,并引入压缩函数概念证明了解的存在唯一性。最后指出最优策略由即时回报、折扣因子和系统模型共同决定。文章为求解最优策略提供了理论基础和数学工具。
2025-07-22 22:18:28
223
原创 强化学习的数学原理(2)
本文介绍了强化学习中的核心概念:状态价值(state value)和动作价值(action value),以及描述状态价值关系的Bellman方程。状态价值表示智能体在特定状态下遵循给定策略能获得的期望回报,而动作价值则是在特定状态下采取特定动作的期望回报。Bellman方程通过建立状态之间的数值关系,可以求解出所有状态的价值。文章详细推导了确定性策略和随机策略下的Bellman方程形式,并说明了如何通过矩阵求解或数值迭代方法获得状态价值。最后指出动作价值可以通过状态价值和策略参数加权计算得到。
2025-07-21 22:02:41
613
原创 强化学习的数学原理(1)
本文介绍了马尔可夫决策过程(MDP)的关键要素。MDP包含状态、行为、奖励和策略四个核心概念,其中行为空间取决于当前状态,奖励函数由状态和行为决定,策略则表示为状态下采取各行为的概率分布。轨迹描述智能体的完整行为序列,回报是评估策略优劣的指标,通过折扣因子处理无限长轨迹问题。MDP作为随机动态系统的建模框架,还包括状态转移概率和奖励概率,并具有无记忆性特征,即下一状态仅依赖于当前状态和行为。这些要素共同构成了强化学习的基础理论框架。
2025-07-21 18:05:56
277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅