LearningHand-Eye Coordination for Robotic Grasping with Deep Learning and Large-ScaleData Collection

DeepMind 物体抓取
在这里插入图片描述

文章的出发点就是一个,看看收集巨量数据能否训练出不错的效果。于是他们构建了个很大的神经网络来训练,但是没有使用RL,而使用CEM。
在这里插入图片描述

输入当前帧和初始帧,然后输入Motor Command,输出则是捡取物体的成功概率。这个和一般的做法很不一样,一般policy是输出动作。而这个则是输出成功概率,某种程度上讲,这是一个value network而不是policy network。我想可能的一个原因是做这个实验的时候A3C还没出来,当时还是DQN的时代,要不然就用A3C呀。事实上之后Sergey Levine团队确实改用DRL做了。那么他为了训练这个网络,需要sample出motor command,这里就是使用CEM来采样,效果当然会比随机采样来的好。
这篇文章的思路其实比较简单,关键是训练成本非常高,非Google没有这样的资源去实验这个事情。那么实验出来效果确实还很不错,这其实就是验证了deep learning的有效性。之后Google的paper也再没有使用上面这样的网络结构了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值