A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retrieval
发布时间(2024 IEEE)
标题:一种轻量级且有效的文本图像检索 多视图 知识提炼框架
摘要
传统:蒸馏 single 知识类型
本文:多视图知识蒸馏 LEMKD(Lightweight and Effective Multi-View Knowledge Distillation)
三种知识
response-based
feature-based
relation-based
大规模双流视觉语言预训练 (VLP) 模型为文本图像检索任务提供了有效的解决方案。尽管如此,它们的性能往往不如最新的单流模型,主要是因为细粒度的文本图像交互有限。最近的趋势表明这两种类型的网络将联合起来。一些方法采用检索和重新排序策略,其性能改进很大程度上取决于推理过程中的单流编码器。 其他方法利用知识蒸馏来加强单流编码器或双流编码器,超越它们以前的能力。然而,现有的蒸馏技术通常侧重于单一知识类型,而忽略了教师模型中可用的更丰富的见解。为了弥补这一差距,我们引入了一种轻量级且有效的多视图知识蒸馏方法,称为 LEMKD,用于文本图像检索。该方法有效地利用了基于响应、基于特征和基于关系的知识,将知识从单流编码器转移到双流编码器。我们的方法在广泛使用的 MS-COCO 和 Flickr30K 数据集上执行。结果表明,LEMKD 不仅能与最先进的单流模型的卓越性能相媲美,而且在最近单流和双流模型的集成中,双流编码器性能也表现出色。
方法
A 模型架构
1)双流编码器
2)单流编