本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。
1. 强化学习是什么?解决什么样的问题?
强化学习主要是针对于同环境进行交互下,学习如何决策使得目标奖励最大。包含了三个要素:交互Interaction、决策Policy和奖励Reward。
- 同环境的交互Interaction:主要包含了两个方面:受环境影响状态State,通过动作Action来影响环境。强化学习并不需要对环境的完全可知,环境可以作为黑盒,通过环境可以根据当前state和action获取下一状态和奖励。
- 决策Policy:构建了由状态到动作的映射关系,这个是强化算法学习的核心
- 奖励Reward:代表了环境在当前状态反馈的即期的收益,既是强化学习优化目标,也是强化学习迭代信号。
强化学习可应用的例子很多,比如:
- 游戏决策类:比如围棋游戏,目标是胜出得分最大,决策是每一步走子的位置,状态是指当前棋盘内黑白子的位置,同环境的交互是指对手根据当前走子状态形成下一步走子,而奖励是指最终的胜出得分。
- 参数优化类: