论文解读：《Unsupervised Multi-Modal Representation Learning for High Quality Retrieval..》

最新推荐文章于 2025-07-26 19:55:31 发布

醒了就刷牙

最新推荐文章于 2025-07-26 19:55:31 发布

阅读量470

点赞数 4

CC 4.0 BY-SA版权

分类专栏：论文文章标签：机器学习 python 人工智能

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/144004698

论文专栏收录该内容

170 篇文章

订阅专栏

论文解读系列文章目录

一、对比学习效率详细解释一下，对公式进行推导

InfoNCE损失函数推导与详细解释

1、基本公式与定义
InfoNCE的损失函数定义如下：
$L_{\text{InfoNCE}}(X; Y|f) = \mathbb{E}\left[\log\frac{f(x_1, y)}{\sum_{x_i \in \tilde{X}} f(x_i, y)}\right],$

符号说明：
- $(x_1, \dots, x_K)$ 是样本矩阵，其中 $x_1$ 是正样本。
- $\tilde{X} = \{x_2, \dots, x_K\}$ 是负样本集合。
- $\exp(\tau^{-1}\text{sim}(x, y))$ ，其中 $\text{sim}(x, y)$ 表示相似性，通常为向量 $x$ 和 $y$ 的点积，且 $\tau$ 是温度参数。

此损失函数衡量正样本对的得分 $f(x_1, y)$ 与负样本对的得分 $\sum_{x_i \in \tilde{X}} f(x_i, y)$ 的对比程度。通过最大化正样本得分相对于负样本得分的对数值，InfoNCE鼓励模型在表征空间中更明确地区分正样本和负样本。

2、对梯度的推导

(1) 梯度计算

对 (y) 计算梯度，记 InfoNCE 损失为：
$L_{\text{InfoNCE}} = \log \frac{f(x_1, y)}{\sum_{x_i \in \tilde{X}} f(x_i, y)}.$

分解式子：
- $f(x_1, y) = \exp(\tau^{-1} \text{sim}(x_1, y))$ 。
- $\sum_{x_i \in \tilde{X}} f(x_i, y) = \sum_{x_i \in \tilde{X}} \exp(\tau^{-1} \text{sim}(x_i, y))$ 。

取对 (y) 的梯度：
$\nabla_y L_{\text{InfoNCE}} = \nabla_y \log f(x_1, y) - \nabla_y \log \left(\sum_{x_i \in \tilde{X}} f(x_i, y)\right).$

(2) 分步推导

正样本对梯度：
$\nabla_y \log f(x_1, y) = \nabla_y \left(\tau^{-1} \text{sim}(x_1, y)\right) = \tau^{-1} x_1,$
因为 (\text{sim}(x, y) = x^T y)。
负样本对梯度：
$\nabla_y \log \left(\sum_{x_i \in \tilde{X}} f(x_i, y)\right) = \frac{\nabla_y \left(\sum_{x_i \in \tilde{X}} f(x_i, y)\right)}{\sum_{x_i \in \tilde{X}} f(x_i, y)}.$
进一步分解：
$\nabla_y f(x_i, y) = \nabla_y \exp(\tau^{-1} \text{sim}(x_i, y)) = \tau^{-1} x_i \exp(\tau^{-1} \text{sim}(x_i, y)).$
因此：
$\nabla_y \sum_{x_i \in \tilde{X}} f(x_i, y) = \tau^{-1} \sum_{x_i \in \tilde{X}} x_i \exp(\tau^{-1} \text{sim}(x_i, y)).$
结合前面结果：
$\nabla_y \log \left(\sum_{x_i \in \tilde{X}} f(x_i, y)\right) = \tau^{-1} \frac{\sum_{x_i \in \tilde{X}} x_i \exp(\tau^{-1} \text{sim}(x_i, y))}{\sum_{x_i \in \tilde{X}} \exp(\tau^{-1} \text{sim}(x_i, y))}.$
结合正负样本梯度：

将正样本和负样本梯度结合：
$\nabla_y L_{\text{InfoNCE}} = \tau^{-1} x_1 - \tau^{-1} \frac{\sum_{x_i \in \tilde{X}} x_i \exp(\tau^{-1} \text{sim}(x_i, y))}{\sum_{x_i \in \tilde{X}} \exp(\tau^{-1} \text{sim}(x_i, y))}.$

3、Softmax归一化形式
定义 $(p_1, \dots, p_K) = \text{softmax}(-\tau^{-1} X^T y)$ ，这时候应用了矩阵，其中：
$p_i = \frac{\exp(\tau^{-1} \text{sim}(x_i, y))}{\sum_{x_j \in X} \exp(\tau^{-1} \text{sim}(x_j, y))}.$
进一步化简梯度：把后面关于 $x_1$ 的系数部分与前面 $x_1$ 的系数部分合并。
$\nabla_y L_{\text{InfoNCE}} = -\tau^{-1} (1 - p_1) x_1 + \tau^{-1} \sum_{x_i \in \tilde{X}} p_i x_i.$

注意到 $1 - p_1)$ 是正样本的权重，而 $\sum_{x_i \in \tilde{X}} p_i x_i$ 是负样本贡献的加权平均。

4、调整梯度效率的方法

$p_1$ 的大小直接反映了正样本的相似性得分。如果正样本 $f(x_1, y)$ 远大于负样本得分总和，则 $p_1 \to 1$ ，正样本的梯度贡献趋于零。
为提高对难负样本的学习效率，可以：
1. 选择更难的负样本：增加负样本集合中难负样本的比例。
2. 增大批量大小：使得 $\tilde{X}$ 包含更多的负样本。
3. 调节温度参数 $\tau$ ：降低 $\tau$ 提高难负样本的区分度。