四轴飞行器悬停作业--心得笔记
这是“百度飞桨世界冠军带你从零实践强化学习”最后的大作业,同样是在baidu ai studio环境中完成。目标要求是回报值达到14000分以上。
Ai studio环境下提供了notebook环境,提供了大部分的基础代码,作业需要填写有关模型和训练部分的内容,在Github中也有PARL DDPG参考的实现
作业采用DDPG 算法,需要构建 actor 和 critic 的网络结构和相关处理。 下面按照时间顺序记录一下调试过程。
1、按照课堂示例cartpole的代码结构,填写model、agent等部分的代码
actor 部分的网络采用两层全连接,第一层的激活函数用relu,第二层的激活函数用tanh。
critic 部分的网络采用两层全连接,第一层的激活函数用relu,第二层不设激活函数
代码如下:
class ActorModel(parl.Model):
def __init__(self, act_dim):
######################################################################
######################################################################
#
# 2. 请配置model结构
#
######################################################################
######################################################################
hide_dim = 100
act_dim = act_dim
self.fc1 = layers.fc(size=hide_dim,act='relu')
self.fc2 = layers