系列文章目录
论文细节理解
- “具体地,对于任何新的分类任务,可以首先通过将描述任务相关类别的句子给予文本编码器来合成分类权重,然后与由图像编码器产生的图像特征进行比较。”具体解释一下。
(1)文本编码器的使用:对于一个新的分类任务,首先需要定义与该任务相关的类别。这通常通过编写描述每个类别的句子来完成。例如,如果任务是识别动物类别,可以使用“这是一只狗”、“这是一只猫”等句子。
(2)合成分类权重:将这些描述性句子输入到文本编码器中,模型会将这些文本转换为向量表示。这些向量实际上就是每个类别的“特征”,可以被视为分类权重。
(3)图像编码器的使用:然后,图像编码器会处理输入的图像,将其转换为特征向量。
(4)比较特征:最后,将从图像编码器获得的图像特征向量与文本编码器生成的类别特征向量进行比较。这个比较通常使用余弦相似度等方法来评估图像与各个类别的匹配程度。
(5)分类决策:通过比较结果,模型可以确定图像最可能属于哪个类别,从而完成分类任务。
这种方法的优点在于,它不需要为每个新任务重新训练模型,而是利用预训练模型的能力,通过简单的文本描述来适应新的分类任务。 - 对于文本特征提取,早期的工作主要利用预先训练的词向量(Socher等人,2013年;弗罗姆等人,2013)或手工制作的TF-IDF特征(Elhoseiny等人,2013年; Lei Ba等人,2015年)的报告。其中TF-IDF特征具体什么意思。
1、研究背景
最近在视觉-语言模型(如CLIP)方面的进展显示出跨不同下游任务的迁移学习能力。与传统的基于离散标签的视觉表示学习不同,视觉-语言预训练将图像和文本对齐在一个共同的特征空间中,