**本文内容仅代表个人理解,如有错误,欢迎指正**
*****(原论文在方法部分写得有点套娃的意思,实在是有点乱,内心os:心平气和心平气和)
1. Problems
- 这篇论文主要提出两个问题:
1) 用一个向量来对Query进行表示,没有对Query当中丰富的物体关系进行推理,即没有有效地利用Query中的信息。
2) 采用特征金字塔提取图像不同层级的特征,得到不同尺度的特征图。分别在不同尺度的特征图上对目标物体进行框选,忽略了处于不同尺度特征图上的物体之间的相关性。
2. Points
1. 提出Entity Relation Fusion Network (ERFN)模型
2. 提出Language Guided Multi-Scale Fusion (LGMSF)模型,以语言为指导,将不同尺度特征图上的物体表示融合为一张特征图。
“Language Guided Multi-Scale Fusion(LGMSF) model for extracting different visual featureof objects with different scales on one feature map. ”
3. 提出Relation Guided Feature Fusion (RGFF)模型,在自注意力的基础上,通过从Query中提取出实体信息来增强特征图中目标的特征表示,通过从Query中提取物体之间的关系来指导物体特征融合。
“Relation Guided Feature Fusion(RGFF) model extract