Baidu PARL学习感悟
前几天参加了Baidu举办的7日强化学习训练营,从入门的强化学习知识,到经典的值函数学习Q-Learning、Sarsa,到策略梯度算法REINFORCEDQN,以及深度强化学习DQN、DDPG等算法,对于短期入门级课程来说算是内容很丰富了。
下面从课程内容、学习经历与PARL使用心得方面对7日的训练营做一个总结。
课程内容
课程内容方面,主要涵盖以下几个方面:
- AI Studio的使用手册(4颗星)
- 百度PARL的基础入门
- 强化学习基础知识介绍及实线
AI Studio的使用
AI Studio的使用几乎与NoteBook一致,而且对于经常使用vim的人来说也算是一个福音。命令模式与编辑模式的切换、‘d’删除快捷键、‘jk’移动快捷键等。而且AI Studio现在免费赠送算力卡,每周有几十小时的GPU使用,对于实验室算力不足的小伙伴也是一个薅羊毛的好去处。
说完了优点,该说说不足,AI Studio默认环境不是PARL的最新版本,每次要重新配置,且在使用过程中,尤其是在GPU环境下使用时,运算速度不是很稳定,不同的时间段申请的计算资源运算速度会有很大差别(速度能有几倍的差距)。
PARL的使用
还有要讨论一下PARL的使用,这里大致写一个PARL的流程结构图
其中,运行环境是我们交互学习的环境(如GYM),右侧是我们强化学习的几个主要模块,其中PARL扮演的角色是算法部分。就是说,我们使用PARL时,只要继承初始的Model类,然后编写自己的模型结构;继承Agent基类,编写Agent的接口(预测、动作等),然后再编写主要的训练流程(环境初始化、智能体初始化、训练周期循环等)。这样就完成了强化学习模块的调用,就可以开始训练了。
这里给百度的PARL打个广告,Gitee连接,查看RL经典算法的实现(https://gitee.com/paddlepaddle/PARL)
课程内容
课程内容方面,涵盖了强化学习必知必会的经典算法。这里有很多小伙伴介绍了相关的内容,就不做赘述了,贴上课程链接,大家可以去公告区灌水~~
https://aistudio.baidu.com/aistudio/course/introduce/1335
比赛内容
除了基础的知识介绍与实现,百度开开放了强化学习小比赛,用于鼓励大家将之前的算法实践用于实际的游戏IA构建中,有关项目内容可以参考下面的链接。(话说,奖励丰厚,你,不来吗?)
https://aistudio.baidu.com/aistudio/course/introduce/1335