强化学习
陪你步步前行
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习A2C求最优策略的代码实现
摘要:本文介绍了Advantage Actor-Critic (A2C)算法及其与ADC算法的区别,包括添加baseline、使用价值网络(vnet)代替Q值网络等关键改进。通过GridWorld环境实现了一个QAC类,包含策略网络(pnet)和价值网络(qnet),采用TD误差进行价值更新和策略梯度更新。实验结果表明,该算法能有效学习环境中的最优策略,通过策略网络和价值网络两种方式均可获得合理的动作选择策略。原创 2025-12-18 15:39:47 · 252 阅读 · 0 评论 -
强化学习QAC求最优策略的代码实现
本文实现了一个基于QAC(Q Actor-Critic)算法的网格世界解决方案。QAC算法包含两个神经网络:策略网络(Actor)和价值网络(Critic)。策略网络用于生成动作概率分布,价值网络评估状态-动作对的Q值。算法通过TD误差更新价值网络,使用策略梯度方法更新策略网络。实验在5×5网格环境中进行,包含障碍物和终止状态。结果显示,通过策略网络和价值网络获取的策略可能不一致,因为基于Q值的贪心策略不一定最优。该实现展示了强化学习中Actor-Critic框架的基本原理及其在离散环境中的应用。原创 2025-12-17 21:37:01 · 243 阅读 · 0 评论 -
强化学习REINFORCE求最优策略的代码实现
摘要:本文实现了一个基于蒙特卡洛方法的策略梯度算法(REINFORCE)。关键点包括:1) 使用神经网络输出动作概率分布,通过softmax保证正数输出;2) 按概率分布选择动作而非贪心策略,以保持探索性;3) 采用梯度上升更新策略参数,损失函数取负;4) 逐步收集episode数据而非完整轨迹生成。算法实现包含状态解码、回报计算和策略更新三个主要步骤,在5×5网格环境中验证有效,能学习到最优策略。原创 2025-12-17 17:46:17 · 177 阅读 · 0 评论 -
强化学习DeepQLearning求最优策略的代码实现
摘要:本文实现了一个基于深度Q学习的网格世界导航算法。代码构建了一个包含两个隐藏层的神经网络,使用SGD优化器和MSE损失函数。通过环境交互生成训练数据,采用经验回放机制进行批量训练,并定期同步目标网络参数。算法在5x5网格环境中运行,设置了障碍物、边界惩罚和终点奖励。最终输出最优策略的可视化结果,展示了智能体在复杂环境中的决策能力。原创 2025-12-16 18:07:34 · 176 阅读 · 0 评论 -
强化学习Q-learning求最优策略的代码实现
摘要:本文介绍了强化学习中的on-policy和off-policy方法,其中on-policy要求行为策略与目标策略相同,而off-policy允许二者不同。实现了一个Q-learning算法,支持两种策略模式,通过网格世界环境进行验证。代码中behavior policy初始化为均匀分布以增强探索性,target policy则采用贪心策略。实验结果显示,通过足够多的采样(samples=1000),算法能有效学习到最优策略。该实现包含了Q值更新、ε-greedy策略改进等核心机制,适用于不同环境配置的原创 2025-12-14 22:27:04 · 164 阅读 · 0 评论 -
强化学习N-step Sarsa求最优策略的代码实现
本文介绍了Sarsa算法在网格世界环境中的实现要点。理论基础部分指出,超参数设置需要考虑Q表大小、样本数和学习率α的合理范围(0.05-0.2)。代码实现了Sarsa算法,通过ε-greedy策略更新Q值和策略,采用时间差分方法进行迭代学习。实验使用5x5网格环境,设置障碍物和终止状态,通过5000次采样训练。与普通Q-learning不同,Sarsa采用同策略(on-policy)学习,每次更新都基于当前策略选择动作。结果显示算法能有效学习最优策略,但需要注意保证足够采样次数使各状态被充分访问。原创 2025-12-14 18:11:18 · 211 阅读 · 0 评论 -
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(二)
摘要:本文提出了一种融合first-visit和every-visit的蒙特卡洛策略迭代方法。在every-visit模式下采用ε-greedy策略更新,first-visit模式下采用greedy更新。针对智能体倾向于原地不动的问题,在环境模型中添加了r_stay惩罚项,并调整了边界和禁区奖励设置。算法实现中,通过采样生成轨迹,根据选定模式更新Q值,最终输出状态值和最优策略。实验表明,随着迭代次数增加(100→1000→10000),策略效果逐步提升。由于采用随机探索机制,相同配置下多次运行结果可能存在差原创 2025-12-12 15:18:18 · 291 阅读 · 0 评论 -
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(一)
本文实现了一个基于蒙特卡洛方法的策略迭代算法(MonteCarloPolicyIteration),用于解决网格世界环境中的强化学习问题。算法通过从给定状态-动作对出发采样多个episode,计算平均回报来估计动作值函数。采用贪心策略进行策略改进,不支持随机策略。实验在5x5网格环境中进行,包含障碍物和终止状态。与策略迭代和价值迭代方法相比,该蒙特卡洛方法同样能收敛到最优策略。环境类进行了相应修改,包括状态编码、奖励设置和step方法实现,以支持算法需求。原创 2025-12-12 12:05:26 · 237 阅读 · 0 评论 -
强化学习策略迭代求最优策略的代码实现
本文实现了策略迭代算法(Policy Iteration)解决网格世界问题。算法包含策略评估和策略改进两个交替步骤:1)评估当前策略的价值函数;2)基于价值函数改进策略直至收敛。实验在5x5网格环境中进行,设置障碍物和终止状态。结果表明策略迭代收敛速度快于值迭代,两者价值函数差异微小。算法输出包括状态价值矩阵和最优策略可视化,验证了策略迭代在马尔可夫决策过程中的有效性。原创 2025-12-11 20:34:37 · 110 阅读 · 0 评论 -
强化学习值迭代求最优策略的代码实现
本文实现了一个通用的网格世界环境(GridWorldEnv)和价值迭代算法(value_iteration_algorithm)。环境支持确定性和随机性MDP,通过transition_prob参数控制动作执行概率分布。价值迭代算法通过动态规划求解最优策略,包含状态价值函数和策略更新过程。实验展示了在5x5网格中,包含障碍物和终点的场景下算法的运行结果,输出了状态价值矩阵和可视化策略(用箭头表示最优动作)。关键特性包括:1)同时支持确定性和随机性MDP;2)严格的概率分布校验;3)完整的状态转移和奖励模型构原创 2025-12-11 18:12:41 · 177 阅读 · 0 评论
分享