
reinforcement learning
文章平均质量分 63
fe_ng_ji
这个作者很懒,什么都没留下…
展开
-
Attention-aware deep reinforcement learning for video face recognition. 论文笔记
清华大学的鲁继文等人[i]做了一个使用深度强化学习做的关于视频人脸识别的模型。将视频的注意力发现过程转化为马尔科夫决策过程,并通过深度强化学习框架训练注意力模型,不使用额外的标签。然而,视频人脸通常会出现不受控制的姿势、光照等变化,导致类内距离变大。一些特征会误导和混淆,使得低质量的帧可能会影响识别的性能。 要做的事情:YouTube Video Faces是用来做人脸验证的。在这个数...原创 2018-11-06 20:35:59 · 1347 阅读 · 0 评论 -
2018 -AAAI-Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition 论文笔记
是中山大学的学者所做的工作。1.要做的事情使用DRL做多标签的图像识别‘2.网络结构states:current region 的特征;reward:分类的正确与否;action:寻找attention local,且在attention区域进行分类;3. 过程首先,将原始图片输入进一个VGG16的卷积层的网络(如下图),得到feature map 。然后经...原创 2018-11-14 16:59:49 · 867 阅读 · 0 评论 -
2014-nips-Recurrent Models of Visual Attention论文笔记
1. 任务进行图像识别2. 网络 图A3. 网络中的细节3.1 名词解释为location。gt为glimpse vector。ht-1是internal state。at是action,有两个作用:通过感知控制下一时刻lt来决定如何布置感知器;一个可能会影响环境状态的环境的作at。3.2 glimpse vector 图一 图...原创 2018-11-16 22:02:01 · 424 阅读 · 0 评论 -
2016-CVPR-Reinforcement learning for visual object detection. 论文笔记
1. 数据集PASCAL VOC 20122. 网络检测整体流程如图。从当前检测区域的状态描述St开始,分类器会对当前状态进行评估并给出终止信号。如果终止信号0,则选取新的evidence region(et)并以et为参考输出下一步需要执行的动作,并观察执行效果得到新的状态。如果终止信号为1,说明当前区域包含有需要检测的目标,此时将依据信度最高的窗口执行选定bounding bo...原创 2018-11-26 10:46:48 · 924 阅读 · 0 评论