[datawhale202211]跨模态神经搜索实践：跨模态模型

SheltonXiao

已于 2022-11-20 21:01:40 修改

阅读量1.6k

点赞数 1

分类专栏：笔记学习文章标签：人工智能深度学习

于 2022-11-19 00:34:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40990057/article/details/127931821

版权

结论速递

本次任务首先了解了CLIP模型及其原理，CLIP模型将图像标签替换为图像的文本描述信息，来监督视觉任务的训练，引入了语义匹配实现下游任务的zero-shot。

多模态和跨模态可能是未来模型的发展方向，多模态尝试结合不同信息表达方式的优势，而跨模态进一步探索新的信息表达方式。简单了解了diffusion模型。

前情回顾

目录

- 结论速递
- 前情回顾
1 CLIP模型
2 多模态与跨模态
参考阅读

1 CLIP模型

1.1 CLIP简介

CLIP是2021年对计算机视觉领域影响比较大的工作，由OpenAI发布，详见CLIP: Connecting Text and Images (openai.com)。

2021年见证了vision transformer的大爆发，随着谷歌提出ViT之后，一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer，另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP，这两个都属于结合图像和文本的多模态模型，其中DALL-E是基于文本来生成模型的模型，而CLIP是用文本作为监督信号来训练可迁移的视觉模型，这两个工作也像ViT一样带动了一波新的研究高潮。
——神器CLIP：连接文本和图像，打造可迁移的视觉模型 - 知乎 (zhihu.com)

CLIP模型同样是个有监督的模型，若以图像分类为例，其特点是：将图像标签替换为图像的文本描述信息，来监督视觉任务的训练（把图像分类问题转化为图文匹配问题）。

1.2 CLIP的动机

近些年，迁移学习在各个领域，包括计算机视觉领域有很多的应用。在CLIP提出之前，预训练+下游任务微调是计算机视觉领域的主流方式，但由于预训练是有监督的，需要数据标注，成本较高。近几年有一些自监督预训练的方法，但到了下游任务仍然需要有监督的微调。

但是在自然语言处理领域，有很多可以降低工作量的数据标注方式，而且实现了zero-shot到下游任务。CLIP的一个初衷，就是想在计算机视觉领域引入自然语言处理领域的这种优势。

近年来，出现了一些基于自监督的方

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SheltonXiao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。