视频文本检索论文笔记（二）：Dual Encoding for Video Retrieval by Text

最新推荐文章于 2024-10-10 08:08:20 发布

原创

最新推荐文章于 2024-10-10 08:08:20 发布 · 2.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

本文介绍了一种2019 CVPR后改进的视频检索方法，通过双编码技术结合多级视频和文本特征，包括全局、时间层次和局部增强编码。文章详细阐述了混合空间学习，包括潜在空间和概念空间的训练策略，以及如何计算视频-文本相似度。

Dual Encoding for Video Retrieval by Text

双编码的文本视频检索 16页
（初版是2019CVPR，这是后续的改进）
在这里插入图片描述
框架图
原文“特定编码块的输出不仅作为后续编码块的输入，还通过跳过连接进行重用，以贡献于最终的输出” ----------多层特征表示融合

1、提出了视频和文本的双重多级编码：

模型的体系结构基于均值特征池(mean feature pooling)、GRU和CNN。没有多

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不倒zk

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Dual Encoding for Video Retrieval by T ext

missgrass的博客

11-04

1175

这里写目录标题视频编码：文本编码：本文3.2 Text-side多级编码混合空间学习概念空间学习努力实现无概念表征典型相关分析(Canonical Correlation Analysis, CCA)经常被用于将视觉和文本特征线性投影到一个公共空间中。本文主要是描述复杂的查询和视频内容至关重要。双编码模型将从训练数据中学习到的视频和文本信息分别存储在不同的表示中，并在推理阶段回忆它们。通过自动检测概念来表示视频内容，这些概念用于匹配目标事件的文本描述。基于概念的表示的一个吸引人的特性是其良好的可

视频文本检索论文笔记（一）：Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

csdnzzkk的博客

04-02

1222

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning —2022CVPR

4 条评论您还未登录，请先登录后发表或查看评论

4 条评论

towtow2020 2022.10.09
兄弟不做多模态知识图谱了啊

m0_71760498 2022.06.07
兄弟，你还研究知识图谱吗
- towtow2020回复m0_71760498 2022.10.09
  兄弟你研究吗
- 不倒zk回复m0_71760498 2022.08.01
  一个月前换了，当时硬件要求达不到，就不搞MMKG了

跨模态检索之文本视频检索（Text to Clip）（2）

weixin_44390691的博客

03-29

1670

《Cross-Modal and Hierarchical Modeling of Video and Text》（2018 ECCV）这篇文章主要介绍了一个叫做分层序列嵌入（Hierarchical Sequence Embedding, HSE）的通用模型，其作用是对不同模态的数据进行分层建模并利用模态间的对应关系来学习模型参数。文章以文本和视频之间的检索为例进行介绍，并在大型数据集上做了实...

Dual Encoding for Zero-Example Video Retrieval论文阅读笔记

zhongzhh8的博客

09-17

739

https://github.com/zhongzhh8/PaperReading/blob/master/Dual%20Encoding%20for%20Zero-Example%20Video%20Retrieval%20Note.md

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

Paper weekly

01-05

5144

©PaperWeekly 原创 · 作者 | 小马单位 | FightingCV公众号运营者研究方向 | 计算机视觉写在前面近几年，随着抖音、快手等短视频平台，以及哔哩哔哩、优酷等视频平台...

深度学习视频文本检索资源精选

资源摘要信息:"awesome-video-text-retrieval:精选的用于视频文本检索的深度学习资源列表" 本资源列表旨在为研究和开发视频文本检索（Video-Text Retrieval）领域的深度学习应用提供一个精选的参考资料集合。视频...

Ad-hoc Video Search（AVS跨模态视频检索）

nakaizura

11-15

3913

AVS任务也是跨模态检索中的一种，即对于给定的句子，尝试在视频库中检索出语义相关的内容。而跨模态相关的文章，博主已经在其他跨模态检索的文章中介绍过了。Ad-hoc和传统的视频检索任务不太一样，如它的名字ad-hoc一样，这其实属于推荐中的两者形态： ad hoc。类似于书籍检索。数据相对稳定不变，而查询千变万化。 routing。类型与新闻推荐。用户兴趣稳定不变，但数据不断变化。一般的跨模态会有预定义语义标签，而AVS任务只能通过建模用户的查询意图，所以某种程度上它的难度更偏向于相似度匹配问题。

【亲测免费】探索视频文本检索新境界：CLIP4Clip

gitblog_00686的博客

08-15

1261

CLIP4Clip是一个基于CLIP（Vision-and-Language-Pretraining）的视频文本检索模型，它在视频和文本的匹配上实现了顶尖的表现。这项工作深入研究了三种相似度计算方法，并在MSR-VTT、MSVD、LSMDC、ActivityNet和DiDeMo等多个数据集上取得了最先进的结果。 ![CLIP4Clip](CLIP4Clip.png) ## 项目技术分析 CL...

视频文本检索之CLIP4Clip

年轻即出发，

05-09

2504

通过分析发现预训练模型clip是基于2D线性投影训练的，却作为3D线性投影的初始化参数，这导致模型没有学习视频帧间的时序特征。模型为12层，宽度为512，包含8个注意力头。将文本特征W和视频特征Z拼接起来，得到拼接后的特征U，并将U和位置编码P，类型编码T进行拼接，输入Transformer进行编码，然后使用2个全连接层做特征投影，得到最终的输出。根据文本到视频检索中的相似性得分对给定查询本文的所有视频（或视频片段）进行排序，或者在视频到文本检索任务中对给定查询视频（或视频片段）的所有文本进行排序。

【学习日记week4】ICCV23论文选：视频文本检索与图像描述

alokag的博客

10-22

3535

跨模态的视频文本检索，主要的目标是进行从文本内容去进行视频检索（一般是text-to-video而不是video-to-text）。在视频文本检索中最重要的任务是如何进行对齐。最标准的做法是将视频和文本的特征通过编码器提取后直接进行对齐。近年来，有了大规模的跨模态与训练模型CLIP，有一批方法基于CLIP来做这类任务。有方法提出了时间融合模块来聚合不同视频帧的特征，然后对视频和文本特征进行跨模态对齐。此后，还有基于视频帧和文本特征的对齐以及更详细的基于视频帧和词特征的更细粒度的对齐。

dual_encoding:[CVPR2019]用于零样本视频检索的双重编码

05-05

双重编码实现零样本视频检索我们的CVPR'19论文源代码。请注意，提供一种改进的视频文本检索模型。要求环境环境 Ubuntu 16.04 CUDA 9.0 Python 2.7（对于python 3，请检出python3分支） PyTorch 0.3.1 我们使用virtualenv设置了一个支持PyTorch的深度学习工作区。运行以下脚本以安装所需的软件包。 virtualenv --system-site-packages -p python2.7 ~ /ws_dual source ~ /ws_dual/bin/activate git clone https://github.com/danieljf24/dual_encoding.git cd ~ /dual_encoding pip install -r requirements.txt deactiva

awesome-video-text-retrieval:精选的用于视频文本检索的深度学习资源列表

05-03

深度学习很棒的视频文本检索 精选的用于视频文本检索的深度学习资源列表。贡献请随时添加文件的。降价格式： - `[Author Journal/Booktitle Year]` Title. Journal/Booktitle, Year. [[paper]](link) [[code]](link) [[homepage]](link) 目录 - - - - 临时视频搜索其他相关数据集实作火炬 hybrid_space dual_encoding w2vvpp 嵌入式专家混合 howto100米合作的 hgr 笨人毫米卡伯特 TensorFlow jsfusion 其他 w2vv （ Keras ）有用的工具包通过MXNet从视频帧中提取CNN功能文件 2021年 [Dong et al. TPAMI21] [Dong et al.

【亲测免费】推荐开源项目：CLIP2Video —— 视频文本检索的新突破

最新发布

gitblog_01102的博客

10-10

1010

video retrieval 论文阅读--Composed Video Retrieval via Enriched Context and Discriminative Embeddings

幸运的小菜鸟的博客

06-04

1012

keywords: (自己总结)同方向论文：CoVR: Learning Composed Video Retrieval from Web Video Captions。

文本视频检索3（CLIP4Clip: An Empirical Study of CLIP for End to End Video ClipRetrieval）

qq_51964119的博客

10-30

538

这个文章最主要的贡献就是把CLIP模型应用到文本视频检索领域，以及设计出了几种新型的相似函数。我们可以借鉴一下他的创新过程，可以感受到A+B的强大魅力。他们最后的方式都是一样，但是有一些在计算之前，对visul向量有不同的操作，分别是什么都不做，LSTM，2）相似函数，提出了三种，其实严格意义来说，使用四种。文本encoder 就是直接使用CLIP的文本编辑器。提出了两种编码方式，一个就是2D,另外一个就是3D。1）视频encoder 以及文本encoder。之后他们的才做都是一样的，

探索Awesome Video Text Retrieval：视频文本检索的新里程碑

gitblog_00017的博客

04-17

829

探索Awesome Video Text Retrieval：视频文本检索的新里程碑去发现同类优质开源项目:https://gitcode.com/ 在人工智能的世界中，视频理解和文本检索是两个重要的研究领域。现在，这两个领域的交汇点有一个令人兴奋的项目——Awesome Video Text Retrieval。该项目由开发者danieljf24维护，是一个全面的资源集合，旨在帮助研究人员和开...

Video-Text Retrieval论文汇总

qq_37840762的博客

11-01

940

Video-Text Retrieval: 2020 CVPR ViT An Image Is Worth 16X16 Words Transformers for image recognition at scale 2021CVPR Dual Encoder Frozen in Time A Joint Video and Image Encoder for End-to-End Retrieval 2021ELSEVIER MAN Multi...

Video retrieval based on deep convolutional neural network 论文阅读

pywin

06-03

895

《Video retrieval based on deep convolutional neural network》论文中采用CNN提取高级语义特征，输入的三个视频共享一个cnn参数，经过cnn得到三个视频各自的特征（[batch,16,Nd]），根据我的理解，FC1的上一层是各视频特征的压缩，由[batch,16,Nd]压缩到了[batch,16*Nd]。此时的特征再经过一个FC1层，输出的特征的维度由[batch,16*Nd]转化为[batch,bits],bits就是hash的bi...

跨模态检索之文本视频检索（Text to Clip）

weixin_44390691的博客

03-29

3069

《Multilevel Language and Vision Integration for Text-to-Clip Retrieval》（2018 CVPR）这篇文章引入了一个多层的模型，输入一个描述某个动作的查询语句，就可以从一段没有经过修剪的视频中找出对应的片段。首先是第一个阶段，在temporal segment proposal阶段注入文本特征。该步骤通过SPN（Segment ...

数据库检索技术与应用：Text2Image-Retrieval探索

然而，由于“数据库etriev笔记”这一标题可能是一个拼写错误（可能是“数据库检索笔记”），以及描述与标题相同，并没有提供额外信息，我们只能从文件名称“Text2Image-Retrieval-main (15).zip”推断出具体的主题。...