
强化学习
介绍强化学习理论,并举一些实战案例
好运来2333
接受自己的平凡,但要活得不平庸!
展开
-
强化学习实战二
这篇博客主要讲解强化学习中两种典型的问题:离散动作与连续动作,通过前面的学习我们知道离散动作问题可以用 Q-Learning算法 解决,而连续动作问题可以用 Policy Gradients算法 解决。这篇博客使用的项目环境:MountainCar v0MountainCarContinuous v01. MountainCar v0问题描述:将动力不足的汽车推到山顶...原创 2020-03-31 16:04:36 · 2454 阅读 · 0 评论 -
Ornstein-Uhlenbeck过程
在强化学习中(如DDPG算法),可能会用到Ornstein-Uhlenbeck(奥恩斯坦-乌伦贝克)过程,即OU过程。这篇博客将从三个角度解释一下OU过程:什么是OU过程?OU过程适用于哪些场景?OU过程的验证实验前言: DDPG论文中使用Ornstein-Uhlenbeck噪声用于探索,为什么不用高斯噪声呢?1. OU过程定义...原创 2020-03-27 17:19:02 · 28614 阅读 · 4 评论 -
强化学习实战一
强化学习实战一原创 2020-03-24 22:41:48 · 2341 阅读 · 1 评论 -
Actor-Critic
Actor-Critic出现的原因:能够适用于连续动作的选取,并且能够进行单步更新。简而言之,就是具备了Q Learning与Policy Gradients的优点。Actor-Critic的特点。Actor-Critic的两个优化版本:DDPG与A3C。DDPG:它吸收了 Actor-Critic 让 Policy gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的 DQN...原创 2020-03-24 16:29:08 · 1852 阅读 · 0 评论 -
Policy Gradients
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/Policy Gradients的特点:回合更新,连续动作(与Q Learning不同)Actor-Critic出现的原因:能够适用于连续动作的选取,并且能够进行单步更新。简而言之,就是具备了Q Learning与Policy Grad...原创 2020-02-28 19:50:16 · 407 阅读 · 0 评论 -
DQN
如何理解DQN中的Q现实与Q估计可以从两个角度进行理解,一、其实是与Q Learning算法中的一样,就是Q现实的计算与转换到下一状态的奖励与处于下一状态的采取最大值动作的Q值有关。二、在DQN中,Q值的计算是由神经网络实现的,Q现实与Q估计是由两个结构相同但参数不同的网络实现的,其中Q估计是时刻更新的,而Q现实使用的是很久以前的参数,是冻结的(其实与Q Learning异曲同工)。这样做的目...原创 2020-02-28 19:24:20 · 508 阅读 · 0 评论 -
强化学习概述
1. 强化学习分类2. Q Learning算法思想、流程、核心。Q Learning 中的 Q值 表示什么?这里可以理解成基于值的强化学习中的值,不要简单地理解成奖励,因为这不仅仅是奖励,应该是与奖励、初始Q表、alpha相关的。在一个初始化全为0的Q表中,第一个更新的Q值应该是获得奖励的上一个状态,因为这时候会有非零值出现即奖励。Q现实与Q估计怎么理解。Q估计就是根据已有的Q表...原创 2020-02-28 19:23:56 · 442 阅读 · 0 评论