
深度学习
文章平均质量分 77
深度学习方法及实践
布谷AI
凡事尽量简单
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单有效的注意力机制
目录本能想解决什么问题?global/local Attentionadditive Attentionself AttentionMulti-Head Attention应用案例本能在认知神经学中,注意力是一种人类不可或缺的复杂认知功能,指人可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中,我们通过视觉、听觉、触觉等方式接收大量的感觉输入。但是我们的人脑可以在这些外界的信息轰炸中还能有条不紊地工作,是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的原创 2020-06-26 23:17:43 · 667 阅读 · 0 评论 -
逻辑回归:线性二分类和非线性激活
Logistic Regression:二分类线性分类器。原创 2020-06-11 22:50:09 · 552 阅读 · 0 评论 -
SEED RL:大规模分布式强化学习框架
SEED RL:Scalable,EfficientDeep-RL,每秒处理数百万张图片的分布式强化学习框架。原创 2020-06-06 06:38:51 · 928 阅读 · 0 评论 -
GA3C:基于GPU的异步并行强化学习算法
GA3C:GPU-basedAsynchronousAdvantageActor-Critic是A3C的GPU实现,混合CPU/GPU,提高学习效率。原创 2020-06-04 09:58:58 · 1535 阅读 · 0 评论 -
并行强化学习算法:A2C/A3C
AsynchronousAdvantageActor-Critic是一种异步的基于优势函数的Actor-Critic并行学习算法。Actor指需要学习的policy π,Critic指需要学习的Value Function。原创 2020-06-02 07:07:09 · 3753 阅读 · 2 评论 -
强化学习 优势函数(Advantage Function)
优势函数表达在状态s下,某动作a相对于平均而言的优势。从数量关系来看,就是随机变量相对均值的偏差。使用优势函数是深度强化学习极其重要的一种策略,尤其对于基于policy的学习。原创 2020-06-02 06:57:45 · 20032 阅读 · 3 评论 -
TD3:双延迟深度确定性策略梯度算法
TD3是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在DDPG算法基础上,同时对policy网络和value网络进行改进,优化了Q-Value的过高估计问题。原创 2020-05-17 20:16:14 · 5910 阅读 · 0 评论 -
Dueling DQN:Q=V+A
Dueling DQN: Q=V+A.在特征层和输出层之间的全连接层,分成了两部分,一部分用于近似state-value V(s),另一部分近似Advantage-Function A(s, a),求和(combine)得到最终的Q(s, a).原创 2020-05-17 08:17:56 · 382 阅读 · 0 评论 -
精讲DQN-深度强化学习开山之作
DQN是Q-learning的深度神经网络实现,针对离散动作空间的model free、off policy深度强化学习算法。原创 2020-05-16 21:47:20 · 1315 阅读 · 0 评论