论文思想挺简单的。懒得放公式了 简单描述一下吧。
1.目标检测
得到bbox和物体类别dist
2.右上角的Global Context
这个Global得比较粗糙。
Global在使用了AvgPool的特征。
然后obj dist feature、visual feature、context feature一起进行obj embedding
3.RelationEmbeddingModule:obj classification
得到refine后的物体类别
4.RelationEmbeddingModule:pred classification
上一步obj embedding的中间特征和物体类别,准备进行predicate embedding
计算出来的特征,前一半当做主语特征,后一半当做宾语特征,再融合进union_box的特征以及主客体的坐标特征,进行谓语分类
这里的所有可能的三元组个数是N*N-N(N为物体数量)
------------------------------一些碎碎念------------------------------
过年好!!!
今年的春晚有沈腾555 我又可以了
这个语言类的阵容我!可!以!
大年初一去看四海 就是冲着我腾哥去的嘻嘻嘻
--------------2022.02.05----------------
四海我已经骂累了
春晚历年最烂
毁灭吧。