Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval--文献阅读翻译_fine-grained image-text matching by cross-modal ha-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42014059/article/details/122122244

该研究提出了一种名为FCA-Net的新型细粒度跨模态对齐网络，专门针对文本-视频检索任务。FCA-Net通过考虑视频中的视觉语义单元和文本中的短语之间的交互，实现了细粒度的跨模态对齐。通过使用图自动编码器优化的链接预测策略，模型能够捕获并增强这些单元之间的关系，从而提高检索性能。实验结果在MSR-VTT、YouCook2和VA-TEX数据集上显示出与现有方法相比的优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval

作者：Ning Han Hunan University ninghan@hnu.edu.cn
Jingjing Chen∗ Fudan University chenjingjing@fudan.edu.cn
Guangyi Xiao Hunan University guangyi.xiao@gmail.com
Hao Zhang City University of Hong Kong zhanghaoinf@gmail.com
Yawen Zeng Hunan University yawenzeng11@gmail.com
Hao Chen∗ Hunan University chenhao@hnu.edu.cn

来源：ACMM 2021(ACM Multimedia Conference 领域顶级国际会议)

摘要

尽管最近跨模式文本到视频检索技术取得了进展，但它们的性能仍然不尽如人意。大多数现有作品都遵循学习联合嵌入空间的趋势，以测量全局或局部文本和视频表示之间的距离。视频片段和短语之间的细粒度交互在跨模态学习中通常被忽略，这导致检索性能欠佳。为了解决这个问题，我们提出了一种新颖的细粒度跨模态对齐网络（FCA-Net），它考虑了视频中的视觉语义单元（即子动作/子事件）和句子中的短语之间的相互作用用于跨模式对齐。具体来说，视觉语义单元和短语之间的交互被公式化为通过图自动编码器优化的链接预测问题，以获得它们之间的显式关系并增强对齐特征表示以进行细粒度跨模态对齐。与最先进的方法相比，MSR-VTT、YouCook2 和 VA-TEX 数据集的实验结果证明了我们的模型的优越性。

图一：文本-视频检索对的示例。 (a) 显示了单个动作/事件检索示例。 (b) 展示了一个复杂的多子动作/子事件检索示例。然而，现有方法在单个动作/事件检索场景中运行良好，但对于涉及视频的连贯子动作/子事件片段和文本的连续语义短语的更现实情况并不令人满意。因此，我们执行视频和文本的视觉语义单元到短语的交互以进行文本视频检索

1 介绍

近年来，随着社交媒体平台(facebook、 twitter)和视频分享平台(youtube、 tik tok)的普及，网络上的多媒体数据(如图像、文本、音频和视频)发生了指数增长。因此，用户被大量的多模态数据[5,22,23,30,45]负担过重，这种趋势需要探索先进的技术来检索不同形式的有用信息。作为该领域的研究热点之一，文本与视频之间的跨模态检索越来越受到学术界和业界的关注。

跨模态的文本-视频检索本质上是一个具有挑战性的问题。主要问题是文本和视频之间的情态差距，这种差距妨碍了不同情态下相关样本的对齐。作为这一挑战的解决方案，现有的方法[10,12,21,28-31]主要学习一个公共潜在空间，直接测量全局或局部级别的文本和视频表示之间的距离。然而，这些方法粗略地捕捉模式之间的对应，因此无法捕捉视频和文本之间的细粒度交互。、

为了更好地捕捉这种细粒度的对应关系，最近的研究调查了基于不同注意力机制的跨模式交互方法 [7,40]，以对齐视频和文本之间的语义空间。此外，跨模态交互方法已被证明对图像文本检索是有效的 [19,33]，它可以发现细粒度的对应关系，从而实现最先进的性能。然而，由于视频和文本之间存在巨大的异质性差距，现有的基于注意力的模型，例如 [7]，可能无法很好地捕获视频的连贯子动作/子事件片段。同时，现有工作在很大程度上忽略了跨模态学习中视频和短语的子动作/子事件片段之间的细粒度交互。对于涉及多个语义相关的子动作/子事件的现实案例，文本视频检索结果并不令人满意。

在这项工作中，我们通过在视频和文本之间执行细粒度的跨模态对齐来解决跨模态检索的问题。具体来说，我们建议对视频片段和文本短语之间的交互进行建模以进行细粒度对齐。我们提供了一个示例来解释这样做的必要性。例如，对于基于简单查询（图 1（a））的文本视频检索，例如“将面糊倒入玻璃杯中”，考虑运动和语义组合的常见检索系统返回包含运动“倒”的相关视频和物体“面糊”和“玻璃”。然而，一个复杂的查询（图 1（b））可能由多个语义短语组成，这些短语对应于多个连贯的动作（即“添加凤尾鱼酱”、“添加伍斯特沙司”、“添加橄榄油”、“添加帕尔马干酪、 ”“搅拌它”）。在匹配过程中，他们更多地依赖于识别文本和视频中最具辨别力的全局特征，而不是在片段和短语级别建立细粒度特征。在这种情况下，可能很难理解全面的上下文和对应关系。虽然对视频和文本进行细粒度建模是必要的，但由于两个主要障碍，它进展缓慢。首先，现实生活中的视频包含各种具有复杂相互交互作用的组合对象，并且当以文本实体为基础时，每个对象/动作都具有不