强化学习_WuRobb的博客-优快云博客

强化学习

关注

文章平均质量分 90

本合集全篇参考赵世钰老师的教材，https://github.com/NewbieToEverything/Code-Mathmatical-Foundation-of-Reinforcement-Learning，请各位结合阅读，本合集只专注于数学概念的代码实现。

关注数：文章数：10 文章阅读量：12931 文章收藏量：200

作者: WuRobb

这个作者很懒，什么都没留下…

展开

专栏收录文章

强化学习原理python篇08——actor-critic

强化学习原理python篇08——actor-critic前置知识TD ErrorREINFORCEQACAdvantage actor-critic (A2C)torch实现步骤第一步第二步第三步训练结果![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9570f00dbbb343ebb9bf2930692af360.png#pic_center)Ref本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcemen

原创 2024-02-01 16:31:21 · 1284 阅读 · 1 评论
强化学习原理python篇07——策略梯度法

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning]Policy Gradient Methods 章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-31 09:20:41 · 1591 阅读 · 0 评论
强化学习原理python篇06（拓展）——DQN拓展

在第2次迭代，正确的值被赋给了Q(s2, a)，但是Q(s1, a)的更新还是不对的。假设在训练开始时，顺序地完成前面的更新，前两个更新是没有用的，因为当前Q(s2, a)和Q(s2, a)是不对的，并且只包含初始的随机值。但是在论文中，作者提出一个非常巧妙的解决方案，就是从神经网络的Q表达式中减去优势值的平均值，它有效地将优势值的平均值趋于0。该论文的核心发现是，神经网络所试图逼近的Q值Q(s, a)可以被分成两个量：状态的价值V(s)，以及这个状态下的动作优势A(s, a)。不需要影响其他部分的实现。

原创 2024-01-29 15:32:36 · 990 阅读 · 0 评论
强化学习原理python篇06（拓展）——DQN-FrozenLake

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Deep Q-learning 章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-29 10:24:45 · 1002 阅读 · 0 评论
强化学习原理python篇06——DQN

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Deep Q-learning 章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-27 16:40:43 · 1399 阅读 · 0 评论
强化学习原理python篇05——蒙特卡罗方法

写一个模拟该实验的类，用坐标（0，1）代表s1，（1，1）代表s2，（0，0）代表s3，（1，0）代表s4。则对于左上角的状态s1，重复模拟实验，获得1000次discount reward。则最大的action_value对应的action为2，则选择向下走。

原创 2024-01-17 09:02:19 · 949 阅读 · 0 评论
强化学习原理python篇04——迭代法

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] ，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-09 11:36:09 · 1233 阅读 · 0 评论
强化学习原理python篇03——贝尔曼最优公式

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] ，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-07 17:40:20 · 1634 阅读 · 0 评论
强化学习原理python篇02——贝尔曼公式推导和求解

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] State Values and Bellman Equation章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-05 17:58:50 · 1713 阅读 · 0 评论
强化学习原理python篇01——基本概念

本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] Basic Concepts章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

原创 2024-01-04 18:43:31 · 1138 阅读 · 0 评论

强化学习

作者: WuRobb

强化学习原理python篇08——actor-critic

强化学习原理python篇07——策略梯度法

强化学习原理python篇06（拓展）——DQN拓展

强化学习原理python篇06（拓展）——DQN-FrozenLake

强化学习原理python篇06——DQN

强化学习原理python篇05——蒙特卡罗方法

强化学习原理python篇04——迭代法

强化学习原理python篇03——贝尔曼最优公式

强化学习原理python篇02——贝尔曼公式推导和求解

强化学习原理python篇01——基本概念