
深度强化学习
文章平均质量分 78
致力于深度强化学习从入门到专家!计算从CNN基础开始,然后介绍 强化学习,再到Q-learning,然后深度强化学习。
xiaoiker
专注机器学习,深度学习,计算机视觉,无人车,人工智能芯片
展开
-
基于NAS的GCN网络设计(AAAI2020)
知乎同步发布:https://www.zhihu.com/people/ikerpeng/activities介绍下我们 AAAI2020的工作:Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching动作识别(Action recognit...原创 2019-12-27 20:37:56 · 2172 阅读 · 2 评论 -
强化学习在视觉上的应用(RL for computer Vision)
文章 iker peng(知乎:https://www.zhihu.com/people/ikerpeng/)原创,转载请与我联系~深度强化学习在很多决策领域当中都取得了比较不错的结果,尤其是在游戏领域,多个游戏已经达到甚至是超过了人类水平。计算机视觉领域,必定也会尝试这种神奇的算法。然而,到目前为止我们并没有看到在这个领域当中特别成功的例子。计算机视觉任务似乎并没有像游戏那样直观...原创 2019-04-09 13:54:44 · 29313 阅读 · 2 评论 -
一图解密AlphaZero(附Pytorch实践)
知乎专栏同步发布: https://zhuanlan.zhihu.com/p/41133862本来打算自己写写的,但是发现了David Foster的神作,看了就懂了。我也就不说啥了。看不清的话,原图在后面的连接也可以找到。没懂?!!!那我再解释下。 AlphaGo Zero主要由三个部分组成:自我博弈(self-play),训练和评估。和AlphaGo 比较,AlphaZ...原创 2018-08-03 14:36:06 · 19425 阅读 · 3 评论 -
强化学习基础四--Policy Gradient 理论推导
本文原文见我的知乎主页:https://www.zhihu.com/people/ikerpeng/ 参考:David Silver,Tutorial: Deep Reinforcement Learning,2016.Pieter Abbeel,Policy Optimization,2017.Hodo van Hasselt,Deep reinforcement Learni原创 2017-11-23 13:28:30 · 8398 阅读 · 3 评论 -
深度强化学习系列(三)Value iteration Network
今天这个歪楼以下,插播今年NIPS的最佳论文,也是强化学习的一篇论文,叫做 Value iteration Network.这一篇强化学习的论文是为了解决 强化学习当中泛化能力差的问题,为了解决这个问题,引入了一个 Learn to plan 的模块。本文的最大创新:在一般性的策略(Policy representation)表示当中加入了一个 规划模块(Planing module)。作者认为加原创 2016-12-21 19:14:49 · 9340 阅读 · 3 评论 -
深度强化学习系列(二):强化学习基础
本文是强化学习的基础,主要参考 Divid Silver 教程,Reinforcement Learning:An Introduction,以及周志华的西瓜书。可能之前大家已经听过了强化学习的介绍,因此,我首先问几个问题:强化学习和MDP过程是一回事吗?强化学习和监督学习的区别是什么?什么是值迭代,什么是策略迭代?有模型和无模型的强化学习的各自有什么样的学习方法?强化学习和深度学习其实很早就有了原创 2016-11-10 20:14:39 · 15052 阅读 · 0 评论 -
深度强化学习系列(一):强化学习概述
深度强化学习系列之一,深度强化学习概述原创 2016-09-21 09:42:50 · 23527 阅读 · 6 评论