双向三元组排名损失（Bidirectional Triplet Ranking Loss）

最新推荐文章于 2025-05-16 22:12:34 发布

原创

最新推荐文章于 2025-05-16 22:12:34 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

系列博客目录

双向三元组排名损失（Bidirectional Triplet Ranking Loss）用于图像和文本对齐的训练方法，公式和详细解释如下：

给定的损失函数是：

$L_{\text{rank}}(v, t) = \sum_{(v,t)} \left\{ \max[0, \gamma - s(v, t) + s(v, t^{-})] + \max[0, \gamma - s(t, v) + s(t, v^{-})] \right\}$

各个符号的含义：

$v$ ：表示图像的嵌入向量（或特征表示）。
$t$ ：表示文本的嵌入向量（或特征表示）。
$s(\cdot, \cdot)$ ：表示余弦相似度（或距离）函数，计算两个嵌入之间的相似度或距离。余弦相似度是通过向量的点积来衡量两个向量之间的相似度：
$\frac{v \cdot t}{\|v\| \|t\|}$
$\gamma$ ：是一个预定义的边际参数（margin），用于确保正样本和负样本之间有一定的距离。
$t^{-}$ ：表示与文本 $t$ 不匹配的负样本文本。
$v^{-}$ ：表示与图像 $v$ 不匹配的负样本图像。