Openai_clip,一个厉害的多模态Python库!

CLIP(对比语言-图像预训练)  是 OpenAI 开发的一种多模态学习架构。它从自然语言监督中学习视觉概念。它通过在包含图像及其相应文本描述的大规模数据集上联合训练模型来弥合文本和视觉数据之间的差距。这类似于 GPT-2 和 GPT-3 的零样本能力。



Stars 数26758
Forks 数3384

主要特点

它通过联合训练两个编码器来工作。一个编码器用于图像(Vision Transformer),另一个编码器用于文本(基于 Transformer 的语言模型)。

  • 图像编码器:图像编码器从视觉输入中提取显著特征。此编码器将“图像作为输入”并生成高维向量表示。它通常使用 卷积神经网络 (CNN) 架构(如ResNet)来提取图像特征。

  • 文本编码器:文本编码器对相应文本描述的语义进行编码。它以“文本标题/标签作为输入”并生成另一个高维向量表示。它通常使用基于 Transformer 的架构(如 Transformer 或 BERT)来处理文本序列。

  • 共享嵌入空间:两个编码器在共享向量空间中生成嵌入。这些共享嵌入空间允许 CLIP 比较文本和图像表示并了解它们的底层关系。

GitHub:https://github.com/openai/CLIP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值