基于模型的强化学习方法最大的问题是模型误差。针对此类问题,业界提出了 PILCO (Probabilistic Inference for Learning Control)算法。它把模型误差纳入考虑的范围。它解决模型偏差的方法不是集中于一个单独的动力学模型,而是建立了概率动力学模型,即动力学模型上的分布。也就是说,PILCO建立的模型并不是具体的某个确定性函数,而是建立一个可以描述一切可行模型(所有通过已知训练数据的模型)上的概率分布。
该概率模型有两个目的:
- 它表达和表示了学习到的动力学模型的不确定性;
- 模型不确定性被集成到长期的规划和决策中。
本文中我们不对PILCO的推导做详细讨论,PILCO的具体内容可参考如下论文:
Deisenroth M P, Rasmussen C E. PILCO: A Model-based and Data-efficient Approach to Policy Search. Int. Conf. on Machine Learning, Bellevue, Washington, USA, Jane 28-July, pp. 465-472, 2011.
Deisenroth M P, Rasmussen C E and Fox D. Learning to Control a Low-Cost Manipulator Using Data-Efficient Reinforcement Learning. Robotics: Science and Systems, 2011.
PILCO
PILCO 算法概述
PILCO算法包含三个层次:
底层学习一个状态转移概率模型 f f ;中层利用该状态转移概率模型和策略 ,预测在策略 π π 下,后续的状态分布,并利用 Vπ(x0)=∑Tt=0∫c(xt)p(