- 博客(6)
- 收藏
- 关注
原创 强化学习之DQN
DQN 包含了两个神经网络------------------ build evaluate_net ------------------ self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s') # input self.q_target = tf.placeholder(tf.float32...
2019-02-23 18:31:42
296
原创 强化学习之DDPG:Deep Deterministic Policy Gradient
一句话概括 DDPG: Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性.因为 DDPG 和 DQN 还有 Actor Critic 很相关, 所以最好这两...
2019-02-23 18:11:47
635
1
原创 强化学习之Actor-Critic
Actor-CriticActor:l1 = tf.layers.dense(#输入一个state inputs=self.s, units=20, # number of hidden units activation=tf.nn.relu, kernel_i...
2019-02-23 09:51:44
587
原创 tensorflow中的交叉熵损失函数
loss1为原生态loss2为tensorflow封装import numpy as npimport tensorflow as tflabels = tf.one_hot(np.array([0,1,2,3],np.float32),4)b = np.array([[0.1,1.1,2.8,0.75]] * 4,np.float32)s = tf.nn.softmax(b)c =...
2019-02-20 15:29:57
610
原创 tensorflow中axis的理解
import numpy as npimport tensorflow as tfa = tf.constant(np.array([[1,2,3,4],[1,2,3,4],[1,2,3,4]]),dtype=tf.float32)b = tf.reduce_sum(a,axis=0)c = tf.reduce_sum(a,axis=1)sess = tf.Session()print...
2019-02-20 15:12:38
188
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人