图文检索（17）：A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retr

简简单单的貔貅

于 2024-10-30 14:30:57 发布

阅读量562

点赞数 19

分类专栏：图文检索文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhuzaiyebol/article/details/143357312

版权

A Lightweight and Effective Multi-View Knowledge Distillation Framework for Text-Image Retrieval

摘要
方法
结论

发布时间（2024 IEEE）

标题：一种轻量级且有效的文本图像检索多视图知识提炼框架

摘要

传统：蒸馏 single 知识类型
本文：多视图知识蒸馏 LEMKD（Lightweight and Effective Multi-View Knowledge Distillation）
三种知识
response-based
feature-based
relation-based

大规模双流视觉语言预训练 (VLP) 模型为文本图像检索任务提供了有效的解决方案。尽管如此，它们的性能往往不如最新的单流模型，主要是因为细粒度的文本图像交互有限。最近的趋势表明这两种类型的网络将联合起来。一些方法采用检索和重新排序策略，其性能改进很大程度上取决于推理过程中的单流编码器。其他方法利用知识蒸馏来加强单流编码器或双流编码器，超越它们以前的能力。然而，现有的蒸馏技术通常侧重于单一知识类型，而忽略了教师模型中可用的更丰富的见解。为了弥补这一差距，我们引入了一种轻量级且有效的多视图知识蒸馏方法，称为 LEMKD，用于文本图像检索。该方法有效地利用了基于响应、基于特征和基于关系的知识，将知识从单流编码器转移到双流编码器。我们的方法在广泛使用的 MS-COCO 和 Flickr30K 数据集上执行。结果表明，LEMKD 不仅能与最先进的单流模型的卓越性能相媲美，而且在最近单流和双流模型的集成中，双流编码器性能也表现出色。

方法

A 模型架构

1）双流编码器
2）单流编

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。