《Learning to Prompt for Vision-Language Models》CoOp论文解读

原创

于 2024-09-12 16:38:14 发布 · 1.8k 阅读

·

61

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#prompt #语言模型 #人工智能

系列文章目录

文章目录

系列文章目录

论文细节理解

“具体地，对于任何新的分类任务，可以首先通过将描述任务相关类别的句子给予文本编码器来合成分类权重，然后与由图像编码器产生的图像特征进行比较。”具体解释一下。
（1）文本编码器的使用：对于一个新的分类任务，首先需要定义与该任务相关的类别。这通常通过编写描述每个类别的句子来完成。例如，如果任务是识别动物类别，可以使用“这是一只狗”、“这是一只猫”等句子。
（2）合成分类权重：将这些描述性句子输入到文本编码器中，模型会将这些文本转换为向量表示。这些向量实际上就是每个类别的“特征”，可以被视为分类权重。
（3）图像编码器的使用：然后，图像编码器会处理输入的图像，将其转换为特征向量。
（4）比较特征：最后，将从图像编码器获得的图像特征向量与文本编码器生成的类别特征向量进行比较。这个比较通常使用余弦相似度等方法来评估图像与各个类别的匹配程度。
（5）分类决策：通过比较结果，模型可以确定图像最可能属于哪个类别，从而完成分类任务。
这种方法的优点在于，它不需要为每个新任务重新训练模型，而是利用预训练模型的能力，通过简单的文本描述来适应新的分类任务。
对于文本特征提取，早期的工作主要利用预先训练的词向量（Socher等人，2013年;弗罗姆等人，2013）或手工制作的TF-IDF特征（Elhoseiny等人，2013年; Lei Ba等人，2015年）的报告。其中TF-IDF特征具体什么意思。

1、研究背景

最近在视觉-语言模型（如CLIP）方面的进展显示出跨不同下游任务的迁移学习能力。与传统的基于离散标签的视觉表示学习不同，视觉-语言预训练将图像和文本对齐在一个共同的特征空间中，从而使模型能够在几乎不需微调的情况下泛化到新任务。然而，提示工程是一个挑战，找到适合任务类别的

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。