
强化学习
文章平均质量分 89
本合集全篇参考赵世钰老师的教材,https://github.com/NewbieToEverything/Code-Mathmatical-Foundation-of-Reinforcement-Learning,请各位结合阅读,本合集只专注于数学概念的代码实现。
WuRobb
这个作者很懒,什么都没留下…
展开
-
强化学习原理python篇08——actor-critic
强化学习原理python篇08——actor-critic前置知识TD ErrorREINFORCEQACAdvantage actor-critic (A2C)torch实现步骤第一步第二步第三步训练结果Ref本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcemen原创 2024-02-01 16:31:21 · 1118 阅读 · 0 评论 -
强化学习原理python篇07——策略梯度法
本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning]Policy Gradient Methods 章节,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-31 09:20:41 · 1420 阅读 · 0 评论 -
强化学习原理python篇06(拓展)——DQN拓展
在第2次迭代,正确的值被赋给了Q(s2, a),但是Q(s1, a)的更新还是不对的。假设在训练开始时,顺序地完成前面的更新,前两个更新是没有用的,因为当前Q(s2, a)和Q(s2, a)是不对的,并且只包含初始的随机值。但是在论文中,作者提出一个非常巧妙的解决方案,就是从神经网络的Q表达式中减去优势值的平均值,它有效地将优势值的平均值趋于0。该论文的核心发现是,神经网络所试图逼近的Q值Q(s, a)可以被分成两个量:状态的价值V(s),以及这个状态下的动作优势A(s, a)。不需要影响其他部分的实现。原创 2024-01-29 15:32:36 · 923 阅读 · 0 评论 -
强化学习原理python篇06(拓展)——DQN-FrozenLake
本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Deep Q-learning 章节,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-29 10:24:45 · 823 阅读 · 0 评论 -
强化学习原理python篇06——DQN
本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Deep Q-learning 章节,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-27 16:40:43 · 1341 阅读 · 0 评论 -
强化学习原理python篇05——蒙特卡罗方法
写一个模拟该实验的类,用坐标(0,1)代表s1,(1,1)代表s2,(0,0)代表s3,(1,0)代表s4。则对于左上角的状态s1,重复模拟实验,获得1000次discount reward。则最大的action_value对应的action为2,则选择向下走。原创 2024-01-17 09:02:19 · 834 阅读 · 0 评论 -
强化学习原理python篇04——迭代法
本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] ,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-09 11:36:09 · 1127 阅读 · 0 评论 -
强化学习原理python篇03——贝尔曼最优公式
本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] ,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-07 17:40:20 · 1475 阅读 · 0 评论 -
强化学习原理python篇02——贝尔曼公式推导和求解
本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] State Values and Bellman Equation章节,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-05 17:58:50 · 1464 阅读 · 0 评论 -
强化学习原理python篇01——基本概念
本章全篇参考赵世钰老师的教材 [Mathmatical-Foundation-of-Reinforcement-Learning] Basic Concepts章节,请各位结合阅读,本合集只专注于数学概念的代码实现。原创 2024-01-04 18:43:31 · 1068 阅读 · 0 评论