深度强化学习:PPO + AI2THOR问题总结

一、PPO代码

选用的是如下repo中的PPO代码:

https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master/contents/

二、网络结构

1.网络变量

项目中的网络输入针对的是向量,但AI2THOR环境下的观测状态及神经网络需要的输入是一个三维张量,因此需要修改项目中的网路结构,S为[None, 84, 84, 3],Q_tar为[None, 1],Q_eval为[None, 1],pi为[None, action_size],a为[None, ]

2.Actor和Critic网络

#s的输入顺序:s->conv1->relu->conv1->relu->fc->relu->out_put_fc
with tf.variable_scope("base_conv", reuse=reuse):
            # Weights
            W_conv1, b_conv1 = self._conv_variable([8, 8, 3, 16], "base_conv1")
            W_conv2, b_conv2 = self._conv_variable([4, 4, 16, 32], "base_conv2")

            # Nodes
            h_conv1 = tf.nn.relu(self._conv2d(self.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值