百度飞桨世界冠军带你从零实践强化学习 -- 大作业心得笔记

四轴飞行器悬停作业--心得笔记

这是“百度飞桨世界冠军带你从零实践强化学习”最后的大作业，同样是在baidu ai studio环境中完成。目标要求是回报值达到14000分以上。

Ai studio环境下提供了notebook环境，提供了大部分的基础代码，作业需要填写有关模型和训练部分的内容，在Github中也有PARL DDPG参考的实现

作业采用DDPG 算法，需要构建 actor 和 critic 的网络结构和相关处理。下面按照时间顺序记录一下调试过程。

1、按照课堂示例cartpole的代码结构，填写model、agent等部分的代码

actor 部分的网络采用两层全连接，第一层的激活函数用relu，第二层的激活函数用tanh。

critic 部分的网络采用两层全连接，第一层的激活函数用relu，第二层不设激活函数

代码如下：

  class ActorModel(parl.Model):
    def __init__(self, act_dim):
        ######################################################################
        ######################################################################
        #
        # 2. 请配置model结构
        #
        #####################