百度飞桨世界冠军带你从零实践强化学习 -- 大作业心得笔记

四轴飞行器悬停作业--心得笔记

    这是“百度飞桨世界冠军带你从零实践强化学习”最后的大作业,同样是在baidu ai studio环境中完成。目标要求是回报值达到14000分以上。

    Ai studio环境下提供了notebook环境,提供了大部分的基础代码,作业需要填写有关模型和训练部分的内容,在Github中也有PARL DDPG参考的实现

    作业采用DDPG 算法,需要构建 actor 和 critic 的网络结构和相关处理。 下面按照时间顺序记录一下调试过程。

1、按照课堂示例cartpole的代码结构,填写model、agent等部分的代码

    actor 部分的网络采用两层全连接,第一层的激活函数用relu,第二层的激活函数用tanh。

    critic 部分的网络采用两层全连接,第一层的激活函数用relu,第二层不设激活函数

    代码如下:

  class ActorModel(parl.Model):
    def __init__(self, act_dim):
        ######################################################################
        ######################################################################
        #
        # 2. 请配置model结构
        #
        ######################################################################
        ######################################################################
        hide_dim = 100
        act_dim = act_dim

        self.fc1 = layers.fc(size=hide_dim,act='relu')
        self.fc2 = layers
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值