是中山大学的学者所做的工作。
1.要做的事情
使用DRL做多标签的图像识别‘
2.网络结构
states:current region 的特征;
reward:分类的正确与否;
action:寻找attention local,且在attention区域进行分类;
3. 过程
首先,将原始图片输入进一个VGG16的卷积层的网络(如下图),得到feature map 。
然后经过全连层后,随机给定一个中心坐标,输入到f0中,得到与location有关的图,输入到LSTM中,得到 l 和hidden layer。如下图所示:
LSTM的输出是location,其隐藏层的输出是作为下一个LSTM的输入,air是预测每个region的分类的得分。