自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 强化学习的数学原理(6)Stochastic Approximation and Stochastic Gradient Decent

本文介绍了在方程未知情况下求解带噪声观测值的方法。重点分析了Robbins-Monro算法,该算法通过迭代方法逼近方程根,其中ak为正系数。文章指出该算法具有收敛性(未详细证明),并说明随机梯度下降(SGD)是Robbins-Monro算法的一个特例。这两种方法都适用于处理带噪声的观测数据求解问题,通过迭代优化逐步逼近真实解。

2025-11-10 19:38:11 127

原创 强化学习的数学原理(5)Monte Carlo Learning

MC basicMC。

2025-10-25 19:47:06 907

原创 强化学习的数学原理(4)

本文介绍了两种求解马尔可夫决策过程的最优策略算法:值迭代和策略迭代。值迭代通过直接求解贝尔曼最优方程,交替进行策略更新(贪心算法)和值更新。策略迭代则分为两步:策略评估(计算状态值函数)和策略改进(基于状态值优化策略)。两种算法都能收敛到最优解,但实现方式不同。值迭代直接逼近最优值函数,而策略迭代通过不断改进策略来达到最优。文章简要说明了两种算法的数学原理和计算步骤。

2025-07-24 16:38:38 490

原创 强化学习的数学原理(3)

本文探讨了强化学习中最优策略的求解问题。首先定义了最优状态值和最优策略的概念,即每个状态值达到最优状态值的策略即为最优策略。重点介绍了贝尔曼最优方程(BOE)的推导过程,将最优策略求解转化为最值问题,通过选择动作价值最高的动作来确定最优策略。针对复杂问题,提出了基于矩阵形式的解法,将其视为不动点方程,并引入压缩函数概念证明了解的存在唯一性。最后指出最优策略由即时回报、折扣因子和系统模型共同决定。文章为求解最优策略提供了理论基础和数学工具。

2025-07-22 22:18:28 223

原创 强化学习的数学原理(2)

本文介绍了强化学习中的核心概念:状态价值(state value)和动作价值(action value),以及描述状态价值关系的Bellman方程。状态价值表示智能体在特定状态下遵循给定策略能获得的期望回报,而动作价值则是在特定状态下采取特定动作的期望回报。Bellman方程通过建立状态之间的数值关系,可以求解出所有状态的价值。文章详细推导了确定性策略和随机策略下的Bellman方程形式,并说明了如何通过矩阵求解或数值迭代方法获得状态价值。最后指出动作价值可以通过状态价值和策略参数加权计算得到。

2025-07-21 22:02:41 613

原创 强化学习的数学原理(1)

本文介绍了马尔可夫决策过程(MDP)的关键要素。MDP包含状态、行为、奖励和策略四个核心概念,其中行为空间取决于当前状态,奖励函数由状态和行为决定,策略则表示为状态下采取各行为的概率分布。轨迹描述智能体的完整行为序列,回报是评估策略优劣的指标,通过折扣因子处理无限长轨迹问题。MDP作为随机动态系统的建模框架,还包括状态转移概率和奖励概率,并具有无记忆性特征,即下一状态仅依赖于当前状态和行为。这些要素共同构成了强化学习的基础理论框架。

2025-07-21 18:05:56 276

原创 解决wkhtmltopdf编码报错

在命令行中输入以下代码,调整编码模式为 UTF-8。

2023-07-25 20:45:36 569

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除