
手册
文章平均质量分 92
savkACUNCB: IOnjn
这个作者很懒,什么都没留下…
展开
-
强化学习:TRPO和PPO背后的数学
TRPO 算法 (Trust Region Policy Optimization)和PPO 算法 (Proximal Policy Optimization)都属于MM(Minorize-Maximizatio)算法。在本文中,我们将介绍基础的MM算法,并且通过几个步骤推导出TRPO和PPO的目标函数。在我们的强化学习系列课程之中( Reinforcement Learning series ),我们将会分别学习不同的主题的内容。但是在本文之中,我们将会展示更多的数学细节给这些好奇的、想了解这些目标函数背转载 2022-01-16 12:17:17 · 1130 阅读 · 0 评论 -
Python 从 Hello world 到TensorFlow
Python 从 Hello world 到TensorFlow 前言 我是Small-cai.大家可以叫我应怜。我从初学Python到现在已经有近三年的时间,可以说比C++学的时间更长一些,而如今又加入了老师的RL的科研项目,所以在此分享自己的学习经验,给初学者指明更清晰的方向。:)在写文章之时,我已经向我的身边的学弟学妹,学长学姐以及同级的同学请教了他们的所学知识。感谢所有支持我的同学。 初始PYTHON 初始Python 首先要知道python的常用编译器Pycharm,VScode,原创 2021-12-08 00:09:02 · 685 阅读 · 5 评论