四轴飞行器悬停作业--心得笔记
这是“百度飞桨世界冠军带你从零实践强化学习”最后的大作业,同样是在baidu ai studio环境中完成。目标要求是回报值达到14000分以上。
Ai studio环境下提供了notebook环境,提供了大部分的基础代码,作业需要填写有关模型和训练部分的内容,在Github中也有PARL DDPG参考的实现
作业采用DDPG 算法,需要构建 actor 和 critic 的网络结构和相关处理。 下面按照时间顺序记录一下调试过程。
1、按照课堂示例cartpole的代码结构,填写model、agent等部分的代码
actor 部分的网络采用两层全连接,第一层的激活函数用relu,第二层的激活函数用tanh。
critic 部分的网络采用两层全连接,第一层的激活函数用relu,第二层不设激活函数
代码如下:
class ActorModel(parl.Model):
def __init__(self, act_dim):
######################################################################
######################################################################
#
# 2. 请配置model结构
#
#####################

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



