图文检索(17):A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retr

A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retrieval


发布时间(2024 IEEE)


标题:一种轻量级且有效的文本图像检索 多视图 知识提炼框架

摘要

传统:蒸馏 single 知识类型
本文:多视图知识蒸馏 LEMKD(Lightweight and Effective Multi-View Knowledge Distillation)
三种知识
response-based
feature-based
relation-based

大规模双流视觉语言预训练 (VLP) 模型为文本图像检索任务提供了有效的解决方案。尽管如此,它们的性能往往不如最新的单流模型,主要是因为细粒度的文本图像交互有限。最近的趋势表明这两种类型的网络将联合起来。一些方法采用检索和重新排序策略,其性能改进很大程度上取决于推理过程中的单流编码器。 其他方法利用知识蒸馏来加强单流编码器或双流编码器,超越它们以前的能力。然而,现有的蒸馏技术通常侧重于单一知识类型,而忽略了教师模型中可用的更丰富的见解。为了弥补这一差距,我们引入了一种轻量级且有效的多视图知识蒸馏方法,称为 LEMKD,用于文本图像检索。该方法有效地利用了基于响应、基于特征和基于关系的知识,将知识从单流编码器转移到双流编码器。我们的方法在广泛使用的 MS-COCO 和 Flickr30K 数据集上执行。结果表明,LEMKD 不仅能与最先进的单流模型的卓越性能相媲美,而且在最近单流和双流模型的集成中,双流编码器性能也表现出色。

方法

A 模型架构

1)双流编码器
2)单流编

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值