强化学习_陪你步步前行的博客-优快云博客

强化学习

关注

关注数：文章数：10 文章阅读量：2036 文章收藏量：22

作者: 陪你步步前行

这个作者很懒，什么都没留下…

展开

专栏收录文章

强化学习A2C求最优策略的代码实现

摘要：本文介绍了Advantage Actor-Critic (A2C)算法及其与ADC算法的区别，包括添加baseline、使用价值网络(vnet)代替Q值网络等关键改进。通过GridWorld环境实现了一个QAC类，包含策略网络(pnet)和价值网络(qnet)，采用TD误差进行价值更新和策略梯度更新。实验结果表明，该算法能有效学习环境中的最优策略，通过策略网络和价值网络两种方式均可获得合理的动作选择策略。

原创 2025-12-18 15:39:47 · 252 阅读 · 0 评论
强化学习QAC求最优策略的代码实现

本文实现了一个基于QAC（Q Actor-Critic）算法的网格世界解决方案。QAC算法包含两个神经网络：策略网络（Actor）和价值网络（Critic）。策略网络用于生成动作概率分布，价值网络评估状态-动作对的Q值。算法通过TD误差更新价值网络，使用策略梯度方法更新策略网络。实验在5×5网格环境中进行，包含障碍物和终止状态。结果显示，通过策略网络和价值网络获取的策略可能不一致，因为基于Q值的贪心策略不一定最优。该实现展示了强化学习中Actor-Critic框架的基本原理及其在离散环境中的应用。

原创 2025-12-17 21:37:01 · 243 阅读 · 0 评论
强化学习REINFORCE求最优策略的代码实现

摘要：本文实现了一个基于蒙特卡洛方法的策略梯度算法(REINFORCE)。关键点包括：1) 使用神经网络输出动作概率分布，通过softmax保证正数输出；2) 按概率分布选择动作而非贪心策略，以保持探索性；3) 采用梯度上升更新策略参数，损失函数取负；4) 逐步收集episode数据而非完整轨迹生成。算法实现包含状态解码、回报计算和策略更新三个主要步骤，在5×5网格环境中验证有效，能学习到最优策略。

原创 2025-12-17 17:46:17 · 177 阅读 · 0 评论
强化学习DeepQLearning求最优策略的代码实现

摘要：本文实现了一个基于深度Q学习的网格世界导航算法。代码构建了一个包含两个隐藏层的神经网络，使用SGD优化器和MSE损失函数。通过环境交互生成训练数据，采用经验回放机制进行批量训练，并定期同步目标网络参数。算法在5x5网格环境中运行，设置了障碍物、边界惩罚和终点奖励。最终输出最优策略的可视化结果，展示了智能体在复杂环境中的决策能力。

原创 2025-12-16 18:07:34 · 176 阅读 · 0 评论
强化学习Q-learning求最优策略的代码实现

摘要：本文介绍了强化学习中的on-policy和off-policy方法，其中on-policy要求行为策略与目标策略相同，而off-policy允许二者不同。实现了一个Q-learning算法，支持两种策略模式，通过网格世界环境进行验证。代码中behavior policy初始化为均匀分布以增强探索性，target policy则采用贪心策略。实验结果显示，通过足够多的采样（samples=1000），算法能有效学习到最优策略。该实现包含了Q值更新、ε-greedy策略改进等核心机制，适用于不同环境配置的

原创 2025-12-14 22:27:04 · 164 阅读 · 0 评论
强化学习N-step Sarsa求最优策略的代码实现

本文介绍了Sarsa算法在网格世界环境中的实现要点。理论基础部分指出，超参数设置需要考虑Q表大小、样本数和学习率α的合理范围（0.05-0.2）。代码实现了Sarsa算法，通过ε-greedy策略更新Q值和策略，采用时间差分方法进行迭代学习。实验使用5x5网格环境，设置障碍物和终止状态，通过5000次采样训练。与普通Q-learning不同，Sarsa采用同策略(on-policy)学习，每次更新都基于当前策略选择动作。结果显示算法能有效学习最优策略，但需要注意保证足够采样次数使各状态被充分访问。

原创 2025-12-14 18:11:18 · 211 阅读 · 0 评论
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现（二）

摘要：本文提出了一种融合first-visit和every-visit的蒙特卡洛策略迭代方法。在every-visit模式下采用ε-greedy策略更新，first-visit模式下采用greedy更新。针对智能体倾向于原地不动的问题，在环境模型中添加了r_stay惩罚项，并调整了边界和禁区奖励设置。算法实现中，通过采样生成轨迹，根据选定模式更新Q值，最终输出状态值和最优策略。实验表明，随着迭代次数增加（100→1000→10000），策略效果逐步提升。由于采用随机探索机制，相同配置下多次运行结果可能存在差

原创 2025-12-12 15:18:18 · 291 阅读 · 0 评论
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现（一）

本文实现了一个基于蒙特卡洛方法的策略迭代算法(MonteCarloPolicyIteration)，用于解决网格世界环境中的强化学习问题。算法通过从给定状态-动作对出发采样多个episode，计算平均回报来估计动作值函数。采用贪心策略进行策略改进，不支持随机策略。实验在5x5网格环境中进行，包含障碍物和终止状态。与策略迭代和价值迭代方法相比，该蒙特卡洛方法同样能收敛到最优策略。环境类进行了相应修改，包括状态编码、奖励设置和step方法实现，以支持算法需求。

原创 2025-12-12 12:05:26 · 237 阅读 · 0 评论
强化学习策略迭代求最优策略的代码实现

本文实现了策略迭代算法(Policy Iteration)解决网格世界问题。算法包含策略评估和策略改进两个交替步骤：1)评估当前策略的价值函数；2)基于价值函数改进策略直至收敛。实验在5x5网格环境中进行，设置障碍物和终止状态。结果表明策略迭代收敛速度快于值迭代，两者价值函数差异微小。算法输出包括状态价值矩阵和最优策略可视化，验证了策略迭代在马尔可夫决策过程中的有效性。

原创 2025-12-11 20:34:37 · 110 阅读 · 0 评论
强化学习值迭代求最优策略的代码实现

本文实现了一个通用的网格世界环境(GridWorldEnv)和价值迭代算法(value_iteration_algorithm)。环境支持确定性和随机性MDP，通过transition_prob参数控制动作执行概率分布。价值迭代算法通过动态规划求解最优策略，包含状态价值函数和策略更新过程。实验展示了在5x5网格中，包含障碍物和终点的场景下算法的运行结果，输出了状态价值矩阵和可视化策略（用箭头表示最优动作）。关键特性包括：1）同时支持确定性和随机性MDP；2）严格的概率分布校验；3）完整的状态转移和奖励模型构

原创 2025-12-11 18:12:41 · 177 阅读 · 0 评论

强化学习

作者: 陪你步步前行

强化学习A2C求最优策略的代码实现

强化学习QAC求最优策略的代码实现

强化学习REINFORCE求最优策略的代码实现

强化学习DeepQLearning求最优策略的代码实现

强化学习Q-learning求最优策略的代码实现

强化学习N-step Sarsa求最优策略的代码实现

强化学习蒙特卡洛策略迭代方法求最优策略的代码实现（二）

强化学习蒙特卡洛策略迭代方法求最优策略的代码实现（一）

强化学习策略迭代求最优策略的代码实现

强化学习值迭代求最优策略的代码实现