结论速递
本次任务首先了解了CLIP模型及其原理,CLIP模型将图像标签替换为图像的文本描述信息,来监督视觉任务的训练,引入了语义匹配实现下游任务的zero-shot。
多模态和跨模态可能是未来模型的发展方向,多模态尝试结合不同信息表达方式的优势,而跨模态进一步探索新的信息表达方式。简单了解了diffusion模型。
前情回顾
目录
1 CLIP模型
1.1 CLIP简介
CLIP是2021年对计算机视觉领域影响比较大的工作,由OpenAI发布,详见CLIP: Connecting Text and Images (openai.com)。
2021年见证了vision transformer的大爆发,随着谷歌提出ViT之后,一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。
——神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎 (zhihu.com)
CLIP模型同样是个有监督的模型,若以图像分类为例,其特点是:将图像标签替换为图像的文本描述信息,来监督视觉任务的训练(把图像分类问题转化为图文匹配问题)。
1.2 CLIP的动机
近些年,迁移学习在各个领域,包括计算机视觉领域有很多的应用。在CLIP提出之前,预训练+下游任务微调是计算机视觉领域的主流方式,但由于预训练是有监督的,需要数据标注,成本较高。近几年有一些自监督预训练的方法,但到了下游任务仍然需要有监督的微调。
但是在自然语言处理领域,有很多可以降低工作量的数据标注方式,而且实现了zero-shot到下游任务。CLIP的一个初衷,就是想在计算机视觉领域引入自然语言处理领域的这种优势。
近年来,出现了一些基于自监督的方