q19930928-优快云博客

原创强化学习之A3C

A3C:Asynchronous Advatage Actor-Critic

2019-02-24 23:11:45 530

原创强化学习之DQN

DQN 包含了两个神经网络------------------ build evaluate_net ------------------ self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s') # input self.q_target = tf.placeholder(tf.float32...

2019-02-23 18:31:42 296

原创强化学习之DDPG：Deep Deterministic Policy Gradient

一句话概括 DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性.因为 DDPG 和 DQN 还有 Actor Critic 很相关, 所以最好这两...

2019-02-23 18:11:47 635 1

原创强化学习之Actor-Critic

Actor-CriticActor：l1 = tf.layers.dense(#输入一个state inputs=self.s, units=20, # number of hidden units activation=tf.nn.relu, kernel_i...

2019-02-23 09:51:44 587

原创 tensorflow中的交叉熵损失函数

loss1为原生态loss2为tensorflow封装import numpy as npimport tensorflow as tflabels = tf.one_hot(np.array([0,1,2,3],np.float32),4)b = np.array([[0.1,1.1,2.8,0.75]] * 4,np.float32)s = tf.nn.softmax(b)c =...

2019-02-20 15:29:57 610

原创 tensorflow中axis的理解

import numpy as npimport tensorflow as tfa = tf.constant(np.array([[1,2,3,4],[1,2,3,4],[1,2,3,4]]),dtype=tf.float32)b = tf.reduce_sum(a,axis=0)c = tf.reduce_sum(a,axis=1)sess = tf.Session()print...

2019-02-20 15:12:38 188

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习之A3C

原创 强化学习之DQN

原创 强化学习之DDPG：Deep Deterministic Policy Gradient

原创 强化学习之Actor-Critic

原创 tensorflow中的交叉熵损失函数

原创 tensorflow中axis的理解

空空如也

空空如也

原创强化学习之A3C

原创强化学习之DQN

原创强化学习之DDPG：Deep Deterministic Policy Gradient

原创强化学习之Actor-Critic