
深度学习基础
hnshahao
这个作者很懒,什么都没留下…
展开
-
神经网络求导与不能求导的情况
关于神经网络的求导和不可求导 ,目前主要是两个地方遇到过,一个是karpathy在Policy Gradient的文章中有一节专门讲了【1: Non-differentiable computation in Neural Networks - Andrej Karpathy】这个标题讲的比较清楚,翻译一下,说的是 “神经网络中的不可求导操作”, 根据这句话可以直接知道(1) 不可求...原创 2018-07-06 10:42:36 · 3974 阅读 · 1 评论 -
损失函数汇总
这篇文章总结一下和loss相关的问题,总结一下loss所牵涉的东西(1) Cross Entropy 交叉熵来构建loss(2) 两个概率的 KL距离 构建loss(3) 对于概率值直接取log(4) 最小均方误差...原创 2018-07-06 10:34:56 · 420 阅读 · 0 评论 -
TRPO 算法解析
这篇主要讲TRPO的思想,和思路原创 2018-10-11 09:55:35 · 3297 阅读 · 3 评论 -
Policy Gradient 和 Value based 方法的区别
[Value Based 方法](1) Value based的方法的背景知识对于MDP, S,A,P,R,r来说,首先是定义了value function, V(s)和Q(s,a),在有了value function的定义以后,就可以得到Optimal valueOptimal policy然后又引出了Bellman Equation,Bellman Equa...原创 2018-10-08 16:14:41 · 8018 阅读 · 0 评论