强化学习入门
文章平均质量分 76
kill bert
在深度学习的小菜鸡
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DDPG算法详解
在RL领域,DDPG主要从:PG -> DPG -> DDPG 发展而来。原创 2023-04-19 16:05:09 · 2903 阅读 · 0 评论 -
Policy_Gradlient算法详解
什么是策略梯度?直接根据状态输出动作或者动作的概率。那么怎么输出呢,最简单的就是使用神经网络啦!我们使用神经网络输入当前的状态,网络就可以输出我们在这个状态下采取每个动作的概率,那么网络应该如何训练来实现最终的收敛呢?我们之前在训练神经网络时,使用最多的方法就是反向传播算法,我们需要一个误差函数,通过梯度下降来使我们的损失最小。但对于强化学习来说,我们不知道动作的正确与否,只能通过奖励值来判断这个动作的相对好坏。原创 2023-04-19 10:55:40 · 268 阅读 · 0 评论 -
DQN算法详解
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。说到DQN中有值函数网络,这里简单介绍一下强化学习中的一个概念,叫值函数近似。一个state action pair 对应一个值函数。原创 2023-04-17 17:31:37 · 5703 阅读 · 1 评论 -
Sarsa VS Q-Learning
Sarsa 是一种on-policy算法,它优化的是它实际执行的策略,它直接用下一步会执行的动作去优化 Q 表格。在学习的过程中,只存在一种策略,它用同一种策略去做动作的选取和优化。所以 Sarsa 知道它下一步的动作有可能会跑到悬崖那边去,它就会在优化自己的策略的时候,尽可能离悬崖远一点。Sarsa 是一种off-policy算法,它优化的是它所有执行的策略,它用下一步会执行的所有动作去优化 Q 表格。在学习的过程中,存在两种策略,它用一种策略去做动作的选取,用另一种策略优化。原创 2023-04-16 20:51:08 · 491 阅读 · 0 评论 -
第一章 概述
偏好探索指的是,个体在与环境进行交互的过程中,会偏好于从不是自身认为最优的其他可选行为中选取一个并作用于环境:偏好利用则相反,这样的个体更倾向于选择实施自身认为最优的行为。首先这要求个体必须在同一个状态下尝试过相当多次的非最优行为,否则个体推荐的最优行为就是不可靠的,但是尝试过多的非最优行为需要相当多次的学习过程,而且会降低个体的学习效率,这通常是不现实的。牛顿的三大定律没有爱因斯坦的相对论完善准确,这是因为人类的认识在进步,同时人类的观测水平在进步,人类构建的认识宇宙的模型也在不断发展。原创 2023-03-27 19:36:15 · 163 阅读 · 0 评论
分享