一. 导论
- 在交互中学习是几乎所有学习和智能理论的基本思想。
- 本书研究在交互中学习的计算性方法,强化学习相比于其他机器学习方法,更加侧重于以交互目标为导向进行学习。
1.1 强化学习
- 强化学习就是学习“做什么才能使得数值化的收益信号最大化”
- 强化学习最重要的两个特征:试错和延迟收益
- 强化学习既不同于监督学习,又不同无监督学习,属于第三种机器学习范式
- 强化学习需要在试探和开发之间进行折中平衡
- 强化学习从一个完整的、交互式的、目标导向的智能体出发,考虑了智能体和不确定环境交互的整个问题,而不是只考虑子问题
1.2 示例
- 国际象棋大师走一步棋
- 羚羊幼崽出生后几分钟挣扎着站起来
- 菲尔准备早餐
1.3 强化学习要素
强化学习四要素:策略、收益、价值函数、环境模型
- 策略:策略就是环境到动作的映射,是强化学习的核心。
- 收益:就是每一步动作的回报,强化学习的目标是最大化长期总收益,是改变策略的主要基础。
- 价值函数:智能体从当前时刻到未来的总收益的期望,价值评估是几乎所有强化学习方法中最重要的部分。
- 环境模型:给定一个状态和动作,环境模型可以预测下一个状态和收益。强化学习由有模型的方法和无模型的方法。
收益 VS 价值
- 收益表明短时间内什么是好的
- 价值表明长远角度来看什么是好的
1.4 局限性和适用范围
- 本书专注于策略问题,不处理构建、改变或学习状态信号的问题
- 遗传算法、遗传规划、模拟退火算法以及其他一些算法可以称为进化算法,不显示地计算价值函数,寻找环境不变情况下的最优策略,不与环境进行交互;在智能体不能精确感知环境状态的问题上具有优势
- 强化学习是与环境互动中学习的一类方法,在很多情况下,考虑个体交互动作的诸多细节的学习方法,会比进化方法更高效
1.5 扩展实例:井字棋
略
1.6 本章小结
略
1.7 强化学习的早期历史
略