1. 绪论
1.1 强化学习可以解决什么问题
可以用一句话来说明强化学习所能解决的问题:智能决策问题。更确切地说是序贯决策问题。
什么是序贯决策问题呢?就是需要连续不断地做出决策,才能实现最终目标的问题。
1.2 强化学习如何解决问题
- 强化学习和监督学习的异同点:强化学习和监督学习的共同点是两者都需要大量的数据进行训练,但是两者所需要的数据类型不同。
- 监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据。
- 强化学习要解决的是序贯决策问题,它不关心输入长什么样,只关心当前输入下应该采用什么动作才能实现最终的目标。当前采用什么动作与最终的目标有关。
- 监督学习→认知:是什么; 强化学习→决策:怎么做