- 博客(12)
- 收藏
- 关注
原创 强化学习笔记【12】DDPG
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、离散动作vs连续动作图1. 离散动作vs连续动作...
2021-08-07 11:58:11
3529
2
原创 强化学习笔记【11】模仿学习
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。如果在一个情景里面,我们连强化学习的奖励都无法得到,那我们该怎么办呢...
2021-08-07 11:50:24
402
1
原创 强化学习笔记【10】稀疏奖励
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。其实在强化学习的过程中,很多情况下,环境中的reward会非常稀疏,...
2021-08-07 11:46:34
790
1
原创 强化学习笔记【9】演员-评论家算法(Actor-Critic Algorithm)
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。演员-评论家算法(Actor-Critic Algorithm)是一...
2021-08-07 11:38:54
1609
1
原创 强化学习笔记【8】DQN连续动作
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。这一章的内容比较少,主要讲解了Q-learning在处理连续动作时的...
2021-08-04 21:46:25
1624
1
原创 强化学习笔记【7】DQN进阶技巧
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。本章介绍了在DQN基础上所做的六点改进:(1)Double D...
2021-08-03 20:24:31
611
1
原创 强化学习笔记【6】DQN基本概念
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。Q-learning是基于价值的强化学习方法,我们要学习的不是策略而...
2021-07-30 15:34:53
778
1
原创 强化学习笔记【5】近端策略优化(PPO)算法
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、相关术语(1)on-policy:要学习的agent跟与...
2021-07-29 12:37:47
3491
1
原创 强化学习笔记【4】策略梯度(Policy Gradient,PG)
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。这一节主要在前三章的基础上加入了一些新的知识点,以及介绍了策略梯度的...
2021-07-28 19:14:19
717
1
原创 强化学习笔记【3】表格型方法(tabular methods)
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分;笔记 【1】和笔记【2】根据《强化学习纲要》整理而来;笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、Q表格(1)Q-tableMDP包括{S,A,R,...
2021-07-27 18:06:45
653
1
原创 强化学习笔记【2】马尔可夫决策过程(MDP)
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分; 笔记 【1】和笔记【2】根据《强化学习纲要》整理而来; 笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、马尔可夫过程(Markov Process,MP)(1...
2021-07-26 21:26:36
1039
1
原创 强化学习笔记【1】强化学习概述
该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得,除了李宏毅老师的强化学习课程之外,为保证内容的完整性,我还参考了一些其他的课程,包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分; 笔记 【1】和笔记【2】根据《强化学习纲要》整理而来; 笔记 【3】和笔记【12】根据《百度强化学习》整理而来。一、强化学习基本知识(1)基本概念强化学习关注...
2021-07-24 18:07:19
1032
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人