强化学习中有多种不同的方法,比如说比较知名的控制方法 Q learning,Policy Gradients,还有基于对环境的理解的 model-based RL 等等。了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助。接下来我们通过分类的方式来了解他们的区别。
第一种分类方法可分为不理解环境(Model-Free RL)和理解环境(Model-Based RL),其区别如下:
Model-Free RL | Model-Based RL | |
描述 | 从环境中得到反馈然后学习 只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. |
可建立虚拟模型,事先理解环境,进行伪现实世界建模 可通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种 |
主要方法 | Q learning,Sarsa,Policy Gradients | Q learning,Sarsa,Policy Gradients |
第二种分类方法可分为基于概率(Policy-Based RL)和 基于价值(Value-Bas