
强化学习系列课程
强化学习课程
何伯特
见自己,见天地,见众生。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习系列课程(一)强化学习概论
1. 整体结构2. 奖励,动作、状态:3. 策略4. 值函数5. 模型原创 2020-02-25 00:14:34 · 436 阅读 · 0 评论 -
强化学习系列课程(二)马尔可夫决策过程
1. 马尔可夫过程强化学习中,从初始状态到终止状态的序列过程被称为一个片段(episode)。下面举一个例子来说明状态转移矩阵的概念:2. 马尔可夫奖励过程马尔可夫奖励过程是状态转移矩阵是已知的,并且赋予了状态转移的奖励值。这里没有动作的概念,一切都是无法改变的,只能从一个旁观者的角度去看待。奖励值:对每个状态的评价,是回报值的期望值。回报值:对每个片段的评价,是一个样本。 可...原创 2020-02-25 22:30:11 · 432 阅读 · 0 评论