wheelchair.jpg
nowheelchair.jpg
[[0.31989905 0.18366921]
[0.31910986 0.18774156]]
代表了概率。第一个代表了他的概率是0.3198 这个数值是大的 因此认为是轮椅
另外一个代表了0.18777 代表了不是轮椅
目录
标题:
封面一句话:
不用微调,不用标注,只要两张图 + 两句话,让开源 ViT-B/32 告诉你“哪张是轮椅”。
一、为什么选 CLIP?
OpenAI 的 CLIP(Contrastive Language-Image Pre-training)把“视觉”和“语言”压到同一向量空间。
零样本能力:见词即识图,无需再训练。
表格
复制
| 传统 CNN | CLIP |
|---|---|
| 需要千张标注 | 2 张图 + 2 句话 |
| 重新训练 | 向量点积即分类 |
| 固定类别 | 任意文本实时扩展 |

该博客介绍了如何运用预训练的CLIP模型进行图像分类。通过计算文本和图像特征的余弦相似度,确定图像内容。内容涉及加载图像、处理文本描述、提取特征以及计算相似度。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



