什么是 Zero-shot Transfer(零样本迁移)?
Zero-shot Transfer(零样本迁移)指的是一个模型在没有见过目标任务的任何标注数据的情况下,直接通过学习到的通用性知识完成该任务。这个能力依赖于模型在预训练阶段所学到的通用知识和语义关系,可以通过灵活的方式将其迁移到新的场景或任务中。
核心思想
通常,传统的机器学习模型需要通过监督学习对每一个任务进行专门的训练,并依赖于大量标注数据。而 Zero-shot Transfer 打破了这一限制,通过预训练一个通用性强的模型,让模型在面对未见过的数据或任务时,也能依靠已有的知识完成特定的任务。
其背后核心在于模型理解和利用任务相关的上下文信息,比如通过自然语言描述任务目标,或者通过对比学习建立视觉和语言之间的联系。
关键特性:
-
无需额外标注数据:零样本意味着模型在新任务中不需要标注样本作为训练数据。
-
灵活性强:只需通过任务描述(如文本提示)即可灵活适配不同任务。比如,不仅限于分类,还可以扩展到目标检测、问答等多种任务。
-
依赖于强大的预训练:预训练阶段的数据量和模型设计对其性能至关重要。模型需要在预训练时学到通用的、可迁移的知识。
示例
以 CLIP 为例,假设有一个预训练的视觉-语言模型:
预训练:CLIP 使用了大量图片和文本对进行预训练,学到了图片内容和对应文本描述之间的语义关系。
任务迁移:零样本图片分类。
目标:将一张图片分为“猫”和“狗”两个类别。
方法:通过一些灵活的机制(如文本提示)将任务描述传递给模型,模型利用预训练时学到的语义关系和对齐知识完成分类:
1. 给出两个文本描述:“一张显示猫的图片”和“一张显示狗的图片”。
2. 模型将图片嵌入和文本嵌入映射到同一个嵌入空间,并比较相似度。
3. 输出最高相似度对应的类别作为预测结果。
在这个过程中,模型并没有专门针对“猫”和“狗”的分类任务进行过训练,但可以基于通用的视觉-语言对齐能力完成该任务。