[datawhale202211]跨模态神经搜索实践:跨模态模型

结论速递

本次任务首先了解了CLIP模型及其原理,CLIP模型将图像标签替换为图像的文本描述信息,来监督视觉任务的训练,引入了语义匹配实现下游任务的zero-shot。

多模态和跨模态可能是未来模型的发展方向,多模态尝试结合不同信息表达方式的优势,而跨模态进一步探索新的信息表达方式。简单了解了diffusion模型。

前情回顾

  1. 环境配置
  2. Jina生态

1 CLIP模型

1.1 CLIP简介

CLIP是2021年对计算机视觉领域影响比较大的工作,由OpenAI发布,详见CLIP: Connecting Text and Images (openai.com)

2021年见证了vision transformer的大爆发,随着谷歌提出ViT之后,一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。
——神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎 (zhihu.com)

CLIP模型同样是个有监督的模型,若以图像分类为例,其特点是:将图像标签替换为图像的文本描述信息,来监督视觉任务的训练(把图像分类问题转化为图文匹配问题)。

1.2 CLIP的动机

近些年,迁移学习在各个领域,包括计算机视觉领域有很多的应用。在CLIP提出之前,预训练+下游任务微调是计算机视觉领域的主流方式,但由于预训练是有监督的,需要数据标注,成本较高。近几年有一些自监督预训练的方法,但到了下游任务仍然需要有监督的微调。

但是在自然语言处理领域,有很多可以降低工作量的数据标注方式,而且实现了zero-shot到下游任务。CLIP的一个初衷,就是想在计算机视觉领域引入自然语言处理领域的这种优势。

近年来,出现了一些基于自监督的方

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SheltonXiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值