浅谈这篇论文
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning —2020CVPR
视频文本检索可以作为知识图谱中的多模态语义对齐,因为要做多模态知识图谱,所以先学习一些视频语义对齐,也就是视频文本检索相关文章。简单浅谈一下。
这个任务的公共点,首先将视频和文本查询进行编码,然后将他们映射到一个公共空间,在这里视频文本的相似度可以直接计算出来。这个过程重要的是视频编码、文本编码和公共空间学习的形式。论文提出的模型叫HGR,主要思想是对视频和句子进行三个层次的编码,每个层次求个相似度,整合三个相似度匹配的结果。第一是全局层次,也就是整个句子和整个视频匹配,第二个层次是提取了句子中动词部分,对应相应的视频片段,第三个是句子中实体单词部分。论文中分词和词性标注是直接用现有工具提取的。具体处理如下。
一、句子的处理
图1是论文中处理句子描述的框架图,对句子生成一个角色图,其中句子成分使用现成的工具来解析获取动词、名词短语以及每个名词短语对对应动词的语义角色(现在工具多的很,什么哈工大的LTP,斯坦福的也有等等等等)。

本文探讨了2020 CVPR论文《Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning》。作者介绍了HGR模型,通过层次图推理处理视频和文本,区分全局、动作和实体三个维度。模型通过GCN和注意力机制,有效降低参数量并提升匹配精度。对比了与DualEncoding的发展,展示了HGR在视频文本检索领域的进展与挑战。
最低0.47元/天 解锁文章
2399

被折叠的 条评论
为什么被折叠?



