论文解读系列文章目录
文章目录
一、
二、
三、本文3. Methodology这一部分主要讲了什么,结合其中的公式以及数学表示讲讲
在本文的Methodology部分,主要介绍了多模态对齐引导的学习式Token剪枝方法(MultiModal alignment-guided Learned Token Pruning,MM-LTP)。该方法用于在电子商务产品搜索中,处理图像-文本对齐不理想的噪声问题,从而提升多模态模型的训练效果。该部分通过数学公式详细解释了如何量化文本中每个Token(词)对图像数据的重要性,并通过学习门限(threshold)剪除不重要的文本Token,提升多模态模型的性能。
1. Token重要性量化
首先,MM-LTP通过注意力得分矩阵(attention score matrix)来量化文本Token相对于图像的重要性。这个注意力得分矩阵是多模态模型理解文本和图像之间关联的核心。
公式如下:
A t t n ( x , z ) = x W q W k T z T d Attn(x, z) = \frac{xW_q W_k^T z^T}{\sqrt{d}} Attn(x,z)=dxWqWkTzT
其中:
- x x x 代表查询序列(即文本序列中的词,形状为 m × n m \times n m×n);
- z z z 代表关键序列(即图像数据中的关键patch,形状为 k × l k \times l k×l); - W q W_q Wq 和 W k W_k W

最低0.47元/天 解锁文章

310

被折叠的 条评论
为什么被折叠?



