图片表示:
图片表示由两部分组成
显著性检测
对整张图进行显著性检测,将网络中不同层的输出进行级联,全连接等操作,最终得到一个显著性注意力权重,将其与region向量相乘,作为显著性视觉向量。
目标检测
检测出图片的多个region,将其特征做加和处理
将上面两个输出的特征进行average pooling作为视觉特征
文本表示
图片表示:
图片表示由两部分组成
显著性检测
对整张图进行显著性检测,将网络中不同层的输出进行级联,全连接等操作,最终得到一个显著性注意力权重,将其与region向量相乘,作为显著性视觉向量。
目标检测
检测出图片的多个region,将其特征做加和处理
将上面两个输出的特征进行average pooling作为视觉特征
文本表示