文章主要内容和创新点
主要内容
本文针对视觉语言模型(VLM)的提示学习任务,提出了一种名为无描述多提示学习(Description-free Multi-prompt Learning, DeMul) 的新方法。现有方法通过从大型语言模型(LLM)中提取文本描述来增强提示,但存在描述变异性高、可靠性低的问题。DeMul则跳过文本描述提取步骤,直接将LLM的预训练知识蒸馏到提示中,使用连续向量表示提示以实现优化,无需离散的预定义模板。此外,在多提示设置中,DeMul引入提示权重机制,动态调整不同提示在训练中的重要性。实验在11个图像识别数据集上验证了该方法的有效性,性能优于现有基于描述的方法和连续提示优化方法。
创新点
- 无描述蒸馏机制:无需从LLM中提取文本描述,直接将可学习提示映射到LLM嵌入空间,通过蒸馏吸收LLM的语义知识,使提示既能保留丰富语义,又能以连续向量形式优化。
- 提示权重机制:在多提示设置中,通过可学习权重动态调整不同提示的重要性,解决了不同提示对分类任务贡献差异的问题,提升了学习效率。
- 性能优势:基于CLIP模型在11个数据集上的实验表明,DeMul在多数场景下超越现有基线(如CoOp、GalLoP等),尤其在少样本学习中表现显著。
无描述多提示学习方法研究

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



