视频文本检索论文笔记(一):Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

本文探讨了2020 CVPR论文《Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning》。作者介绍了HGR模型,通过层次图推理处理视频和文本,区分全局、动作和实体三个维度。模型通过GCN和注意力机制,有效降低参数量并提升匹配精度。对比了与DualEncoding的发展,展示了HGR在视频文本检索领域的进展与挑战。

浅谈这篇论文

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning —2020CVPR

        视频文本检索可以作为知识图谱中的多模态语义对齐,因为要做多模态知识图谱,所以先学习一些视频语义对齐,也就是视频文本检索相关文章。简单浅谈一下。
        这个任务的公共点,首先将视频和文本查询进行编码,然后将他们映射到一个公共空间,在这里视频文本的相似度可以直接计算出来。这个过程重要的是视频编码、文本编码和公共空间学习的形式。论文提出的模型叫HGR,主要思想是对视频和句子进行三个层次的编码,每个层次求个相似度,整合三个相似度匹配的结果。第一是全局层次,也就是整个句子和整个视频匹配,第二个层次是提取了句子中动词部分,对应相应的视频片段,第三个是句子中实体单词部分。论文中分词和词性标注是直接用现有工具提取的。具体处理如下。

一、句子的处理

        图1是论文中处理句子描述的框架图,对句子生成一个角色图,其中句子成分使用现成的工具来解析获取动词、名词短语以及每个名词短语对对应动词的语义角色(现在工具多的很,什么哈工大的LTP,斯坦福的也有等等等等)。
在这里插入图片描述           

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值