系列博客目录
双向三元组排名损失(Bidirectional Triplet Ranking Loss)用于图像和文本对齐的训练方法,公式和详细解释如下:
1. 损失函数公式解析
给定的损失函数是:
L rank ( v , t ) = ∑ ( v , t ) { max [ 0 , γ − s ( v , t ) + s ( v , t − ) ] + max [ 0 , γ − s ( t , v ) + s ( t , v − ) ] } L_{\text{rank}}(v, t) = \sum_{(v,t)} \left\{ \max[0, \gamma - s(v, t) + s(v, t^{-})] + \max[0, \gamma - s(t, v) + s(t, v^{-})] \right\} Lrank(v,t)=(v,t)∑{ max[0,γ−s(v,t)+s(v,t−)]+max[0,γ−s(t,v)+s(t,v−)]}
各个符号的含义:
- v v v:表示图像的嵌入向量(或特征表示)。
- t t t:表示文本的嵌入向量(或特征表示)。
- s ( ⋅ , ⋅ ) s(\cdot, \cdot) s(⋅,⋅):表示余弦相似度(或距离)函数,计算两个嵌入之间的相似度或距离。余弦相似度是通过向量的点积来衡量两个向量之间的相似度:
s ( v , t ) = v ⋅ t ∥ v ∥ ∥ t ∥ s(v, t) = \frac{v \cdot t}{\|v\| \|t\|} s(v,t)=∥v∥∥t∥v⋅t - γ \gamma γ:是一个预定义的边际参数(margin),用于确保正样本和负样本之间有一定的距离。
- t − t^{-} t−:表示与文本 t t t 不匹配的负样本文本。
- v − v^{-} v−:表示与图像 v v v 不匹配的负样本图像。
2. 损失函数的作用
损失函数的核心思想是通过对比正样本和负样本的相似度,来对图像和文本的嵌入进行优化。具体来说:
- 正样本对:图像 v v v 和文本