目录
学习目标:
- 一周掌握 python算法中的深度学习算法之强化学习入门知识
学习内容:
- 强化学习
强化学习
Ⅰ. 环境建模
在强化学习中,环境是指智能体交互的场景或问题的模型。通常,我们使用数学模型来表示环境。在建模环境时,我们需要确定以下内容:
- 状态空间:指环境中所有可能状态的集合。通常用S表示。
- 行动空间:指智能体可以采取的所有行动的集合。通常用A表示。
- 奖励函数:指智能体在环境中执行一个动作后所获得的即时奖励。通常用R表示。
- 状态转移函数:指智能体执行一个行动后环境会转移到哪个状态。通常用T表示。
这些元素可以用数学符号描述如下:
- 状态空间:$S={s_1, s_2, ..., s_n}$
- 行动空间: