
强化学习
文章平均质量分 86
强化学习笔记
Tony Wey
这个作者很懒,什么都没留下…
展开
-
KL散度介绍
KL散度用于测量。原创 2024-09-28 16:38:16 · 2111 阅读 · 0 评论 -
强化学习—PPO
On-policy方法专注于使用当前策略生成数据并进行学习,适合那些需要频繁策略更新的场景,但样本效率较低。Off-policy方法允许智能体使用与当前策略不同的策略生成数据,并能够重用经验库中的数据,因此在样本效率和学习灵活性上表现更好,但可能会引入更多的训练不稳定性。根据具体的应用需求,可以选择使用 On-policy 或 Off-policy 方法,或者在某些情况下结合两者的优势。原创 2024-09-24 17:59:59 · 1557 阅读 · 0 评论 -
强化学习—A3C
A3C 是一种基于异步并行化的强化学习算法,通过让多个智能体在独立环境中异步地进行策略更新,从而加快训练速度并提高策略的稳定性。尽管 A3C 在实现和参数调优上具有一定的复杂性,但其在多个实际任务中的优异表现使得它成为强化学习研究和应用中的一个重要工具。原创 2024-09-23 17:39:44 · 880 阅读 · 0 评论 -
强化学习—多智能体
多智能体强化学习是强化学习中的一个重要分支,涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战,如非稳定性、维度灾难以及智能体之间的协作与竞争。然而,随着算法的不断进步,MARL 在多个复杂应用领域中显示出巨大的潜力和前景。如果有更多的具体问题或需要深入讨论某个方面,欢迎继续提问!在一个包含多个玩家的博弈中,每个玩家都有一个策略集Σi\Sigma_iΣi,以及对应的收益函数uiσ1σ2σnuiσ1σ2σn,其中σi\sigma_iσ。原创 2024-08-13 09:46:33 · 8171 阅读 · 1 评论 -
强化学习—TPRO
Trust Region Policy Optimization (TRPO) 是一种强化学习策略优化算法,通过限制新旧策略之间的变化范围,确保每次更新都在一个信任区域内,从而提高学习过程的稳定性和效率。虽然 TRPO 在实际应用中表现良好,但它的计算复杂度和实现难度相对较高。如果你有任何进一步的问题或需要更多信息,欢迎继续讨论!原创 2024-08-12 15:35:02 · 1495 阅读 · 0 评论 -
强化学习—连续控制
离散控制:动作空间集和里面的动作是有限的、离散的。连续控制:动作空间集和里面的动作是连续的、无穷的。比如机械臂的运动。原创 2024-08-12 12:04:54 · 534 阅读 · 0 评论 -
强化学习—A2C
Advantage Actor-Critic (A2C) 是一种有效的强化学习算法,通过引入 Advantage Function 来改进传统的 Actor-Critic 方法,从而减少方差并提高策略更新的效率。在实际应用中,A2C 被广泛用于解决多种复杂的强化学习问题。原创 2024-08-12 11:40:56 · 2037 阅读 · 0 评论 -
强化学习—Reinforce with Baseline
需要完整观测一整个过程,每个时刻都会更新一轮参数,n个时刻就是n轮。因为是期望,可以使用蒙特卡洛近似,将At近似使用随机at。Q也是期望,所以也可以用蒙特卡洛近似,用随机ut近似。策略梯度:是状态价值函数对策略网络参数的梯度。是环境给的奖励,都是未知随机的(大写字母)总共使用了两次蒙特卡洛近似,和一个神经网络。公式近似之后,有两部分未知:Q和V。求期望,进一步消掉了动作。用价值网络近似V函数。原创 2024-08-09 16:56:27 · 794 阅读 · 0 评论 -
强化学习—Policy-Baseline
无论b是否华斯用,策略梯度还是一样的。但是适用b,会缩小方差,加速网络收敛。选取一个baseline->b,b是和动作A完全独立的。原创 2024-08-09 12:25:25 · 867 阅读 · 0 评论 -
强化学习—Dueling Network
最优优势函数是由最优动作价值函数和最优状态函数结合而成。原创 2024-08-08 17:43:45 · 323 阅读 · 0 评论 -
强化学习—高估计问题
Bootstrapping:用一个估算去更新同类的估算。在强化学习中,Bootstrapping是一种重要的方法,特别是在n-step TD(时序差分)预测和控制问题中。这种方法结合了蒙特卡罗(MC)方法和一步时序差分(TD)方法。n-step TD方法利用了后续多步信息来更新价值函数,介于一步TD方法和MC方法之间。例如,在n-step TD方法中,目标的计算考虑了从当前步骤开始的接下来的n个步骤的奖励和状态价值。这种方法可以更快地更新价值估计,并且可以根据情况调整步长n,从而加速学习过程。n-st原创 2024-08-08 16:56:15 · 404 阅读 · 0 评论 -
强化学习—经验回放
Experience Replay 是强化学习中一种重要的技术,通过打破经验的时间相关性,提高了样本效率和学习的稳定性。它在深度强化学习算法(如 DQN)中的应用,显著提升了算法在复杂环境中的表现。原创 2024-08-08 12:11:22 · 1345 阅读 · 0 评论 -
强化学习—Multi-Step TD Target
Multi-step TD Target 是一种有效的强化学习方法,通过结合多步回报来改进值函数的更新。它在处理复杂环境、加速收敛和改善估计精度方面提供了灵活的工具,是许多强化学习算法的重要组成部分。原创 2024-08-08 09:40:53 · 1123 阅读 · 0 评论 -
强化学习—Q-Learning
Q-Learning 是一种强大的强化学习算法,通过学习状态-动作值函数来找到最优策略。其无模型、离线更新特性使其适用于各种复杂任务,但其学习过程依赖于足够的探索和适当的参数设置。原创 2024-08-07 10:32:35 · 1132 阅读 · 0 评论 -
强化学习—Sarsa算法
Sarsa算法是一种基于策略的时间差分算法,通过实时更新 Q 值来学习策略。它对策略的选择敏感,适用于在线学习任务。与 Q-learning 的主要区别在于更新机制和策略选择。原创 2024-08-06 18:12:15 · 1684 阅读 · 0 评论 -
蒙特卡洛算法
蒙特卡洛算法通过随机抽样提供了一种灵活的数值计算方法,适用于解决各种复杂问题。尽管计算开销可能较大,但其简单易用性和广泛应用领域使其成为数值计算的重要工具。设有参数θ的总体,其估计量为θ。如果θ的期望值等于参数θ,即:Eθθ那么θ被称为是θ的无偏估计。设有参数 \theta的总体,其估计量为 \hat{\theta}。如果 \hat{\theta}的期望值等于参数 \theta,即:\\那么 \hat{\theta} 被称为是 \theta的无偏估计。设有参数θ。原创 2024-08-06 17:31:09 · 2908 阅读 · 0 评论 -
强化学习—Actor-Critic方法
Actor-Critic方法是强化学习中的一个重要算法,通过结合策略梯度和价值函数估计的优点,能够在高维和连续动作空间中有效学习和优化策略。通过不断的发展和改进,Actor-Critic方法已经成为处理复杂强化学习问题的强大工具。原创 2024-08-06 16:00:56 · 1215 阅读 · 0 评论 -
蒙特卡洛近似
蒙特卡洛近似是一种强大的数值方法,能够通过随机采样来估计复杂的期望值或积分。在强化学习、统计学、金融工程和物理模拟等领域,蒙特卡洛方法因其广泛的适用性和相对简单的实现方式,成为解决许多实际问题的有效工具。尽管其计算成本较高,但在许多情况下,蒙特卡洛方法是唯一可行的近似手段。原创 2024-08-05 17:58:06 · 1394 阅读 · 0 评论 -
强化学习—策略学习
策略学习原创 2024-08-05 16:30:51 · 1338 阅读 · 0 评论 -
强化学习—价值学习
价值学习原创 2024-08-05 15:20:45 · 1206 阅读 · 0 评论 -
马尔科夫决策过程
贝尔曼方程通过递归地定义价值函数,将复杂的决策问题分解为一系列更简单的子问题。这使得在不确定环境中求解最优策略成为可能,是动态规划和强化学习中的关键工具。原创 2024-08-04 22:33:44 · 661 阅读 · 0 评论 -
一些数学基础概念
概率密度函数是描述连续随机变量分布的重要工具。通过 PDF,可以计算随机变量在不同区间的概率,并分析其统计特性。理解和应用 PDF 是概率论和统计学的基础。原创 2024-08-04 20:43:24 · 936 阅读 · 0 评论 -
强化学习—基础概念
一种重要的机器学习范式。原创 2024-07-24 17:44:22 · 1186 阅读 · 0 评论