Introduction
说明
这一系列博客是根据PILCO算法(Probabilistic inference for learning control)的提出者Marc Peter Deisenroth 的书做的笔记和摘要,欢迎交流,有错误请指出。
主要参考书籍和论文,:
Books:
Deisenroth, Marc. (2010). Efficient Reinforcement Learning using Gaussian Processes.
Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT Press, 2006.(想深入了解高斯过程在机器学习的应用可参考)
Papers:
Deisenroth M, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search[C]//Proceedings of the 28th International Conference on machine learning (ICML-11). 2011: 465-472.
M. P. Deisenroth, D. Fox and C. E. Rasmussen, “Gaussian Processes for Data-Efficient Learning in Robotics and Control,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 2, pp. 408-423, Feb. 2015.

本文介绍了强化学习的基本概念,强调了学习效率问题,并探讨了如何利用高斯过程(GPs)降低模型偏差。PILCO算法通过动态模型学习、策略评估和策略改进,解决连续动作空间的RL问题,利用GPs表示环境模型,以提高数据效率。
最低0.47元/天 解锁文章
8640

被折叠的 条评论
为什么被折叠?



