Paper: https://arxiv.org/pdf/2104.08860.pdf
Code: https://github.com/ArrowLuo/CLIP4Clip
Authors: 西南交大,微软亚研院, 微软STCA
前置知识
zero-shot learning: 零次学习,就是希望我们的模型能够对其从没见过的类别进行分类,让机器具有推理能力,实现真正的智能。其中零次(Zero-shot)是指对于要分类的类别对象,一次也不学习。
ZSL要做的事,举个例子(如下图),告诉模型这是马、老虎、熊猫等,也告诉模型每种动物类别的属性描述(马鬃、条纹、黑白等),然后给模型一张斑马的图片(模型未见过)以及斑马这一类别的属性描述,让模型识别出这是一个斑马,这样的过程其实就是让模型模仿人类,利用过去的知识(视觉特征-描述-类别之间的匹配对),来推理出新对象的具体形态(新对象的描述–>该有的视觉特征–>对未见过图像进行判断)。因此要实现ZSL需要解决两个问题:第一个问题是获取合适的类别描述 ;第二个问题是建立一个合适的分类模型;具体可参见:知乎

摘要
视频文本检索在多模态研究中起着至关重要的作用,在许多现实网络应用中得到了

提出了一种基于CLIP预训练模型的视频文本检索方法CLIP4Clip,旨在解决视频检索任务中的零样本预测问题。该方法通过设计不同的相似度计算机制,改进了视频与文本之间的匹配,并在多个基准数据集上取得了优异的成绩。
最低0.47元/天 解锁文章
1073

被折叠的 条评论
为什么被折叠?



