- 博客(2)
- 收藏
- 关注
原创 强化学习过程笔记 (二) MDP 马尔可夫决策过程、贝尔曼等式详解
Markov Process & Markov chain 马尔可夫过程及马尔科夫链 如果一个状态是符合马尔可夫的,那就是说一个状态的下一状态只取决于它当前的状态,而跟它之前的状态都没有关系。 Markov Reward Process 马尔可夫过程加上一个奖励函数便构成了马尔可夫奖励过程 这里我们进一步阐述和温习一些概念及定义。 Horizon指一个回合的长度(每个回合的最大时间步数),它由有限个步数决定的 Return指把奖励折扣后所获得的收益,可以定义为奖励的逐步叠加:
2021-10-12 12:46:44
879
原创 强化学习过程笔记 (一) ReinforcementLearning 详解价值函数,剖析公式
本系列博客参照学习笔记easy-rl by DataWhale,标题中的后半部分对应笔记中每章节。 附上链接:https://datawhalechina.github.io/easy-rl/x 本系列博客配合上笔记学习效果更佳,内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。 强化学习的概念示意图: 对于一个强化学习agent,他可能由一个或多个的如下部分组成: Policy function agent会用这个函数来选取下一步 value fun...
2021-10-12 09:47:23
1022
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人