CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

提出了一种基于CLIP预训练模型的视频文本检索方法CLIP4Clip,旨在解决视频检索任务中的零样本预测问题。该方法通过设计不同的相似度计算机制,改进了视频与文本之间的匹配,并在多个基准数据集上取得了优异的成绩。


Paper: https://arxiv.org/pdf/2104.08860.pdf
Code: https://github.com/ArrowLuo/CLIP4Clip
Authors: 西南交大,微软亚研院, 微软STCA


前置知识

zero-shot learning: 零次学习,就是希望我们的模型能够对其从没见过的类别进行分类,让机器具有推理能力,实现真正的智能。其中零次(Zero-shot)是指对于要分类的类别对象,一次也不学习。
ZSL要做的事,举个例子(如下图),告诉模型这是马、老虎、熊猫等,也告诉模型每种动物类别的属性描述(马鬃、条纹、黑白等),然后给模型一张斑马的图片(模型未见过)以及斑马这一类别的属性描述,让模型识别出这是一个斑马,这样的过程其实就是让模型模仿人类,利用过去的知识(视觉特征-描述-类别之间的匹配对),来推理出新对象的具体形态(新对象的描述–>该有的视觉特征–>对未见过图像进行判断)。因此要实现ZSL需要解决两个问题:第一个问题是获取合适的类别描述 ;第二个问题是建立一个合适的分类模型;具体可参见:知乎
ZSL概念图:从老虎、马、熊猫等的描述和类别中,来识别出从未见过的斑马

摘要

视频文本检索在多模态研究中起着至关重要的作用,在许多现实网络应用中得到了

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值