开心果小李-优快云博客

原创强化学习笔记【12】DDPG

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。一、离散动作vs连续动作图1. 离散动作vs连续动作...

2021-08-07 11:58:11 3643 2

原创强化学习笔记【11】模仿学习

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。如果在一个情景里面，我们连强化学习的奖励都无法得到，那我们该怎么办呢...

2021-08-07 11:50:24 442 1

原创强化学习笔记【10】稀疏奖励

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。其实在强化学习的过程中，很多情况下，环境中的reward会非常稀疏，...

2021-08-07 11:46:34 866 1

原创强化学习笔记【9】演员-评论家算法(Actor-Critic Algorithm)

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。演员-评论家算法(Actor-Critic Algorithm)是一...

2021-08-07 11:38:54 1803 1

原创强化学习笔记【8】DQN连续动作

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。这一章的内容比较少，主要讲解了Q-learning在处理连续动作时的...

2021-08-04 21:46:25 1731 1

原创强化学习笔记【7】DQN进阶技巧

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。本章介绍了在DQN基础上所做的六点改进：（1）Double D...

2021-08-03 20:24:31 659 1

原创强化学习笔记【6】DQN基本概念

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。Q-learning是基于价值的强化学习方法，我们要学习的不是策略而...

2021-07-30 15:34:53 819 1

原创强化学习笔记【5】近端策略优化（PPO）算法

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。一、相关术语(1）on-policy:要学习的agent跟与...

2021-07-29 12:37:47 3624 1

原创强化学习笔记【4】策略梯度（Policy Gradient，PG）

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。这一节主要在前三章的基础上加入了一些新的知识点，以及介绍了策略梯度的...

2021-07-28 19:14:19 759 1

原创强化学习笔记【3】表格型方法（tabular methods）

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。一、Q表格（1）Q-tableMDP包括{S,A,R,...

2021-07-27 18:06:45 740 1

原创强化学习笔记【2】马尔可夫决策过程（MDP）

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。一、马尔可夫过程(Markov Process，MP)(1...

2021-07-26 21:26:36 1092 1

原创强化学习笔记【1】强化学习概述

该系列主要是听李宏毅老师的《深度强化学习》过程中记下的一些听课心得，除了李宏毅老师的强化学习课程之外，为保证内容的完整性，我还参考了一些其他的课程，包括周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。使用说明笔记【4】到笔记【11】为李宏毅《深度强化学习》的部分；笔记【1】和笔记【2】根据《强化学习纲要》整理而来；笔记【3】和笔记【12】根据《百度强化学习》整理而来。一、强化学习基本知识（1）基本概念强化学习关注...

2021-07-24 18:07:19 1128 3

qq_41030408的博客