掩码图像建模 (MIM) 中的对数似然与交叉熵

最新推荐文章于 2025-07-29 21:31:10 发布

frostmelody

最新推荐文章于 2025-07-29 21:31:10 发布

阅读量904

点赞数 10

CC 4.0 BY-SA版权

分类专栏：深度学习小知识点 LLM/RAG/MLLM/Agent知识点文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/Listennnn/article/details/146913322

LLM/RAG/MLLM/Agent知识点同时被 2 个专栏收录

125 篇文章

订阅专栏

深度学习小知识点

73 篇文章

订阅专栏

掩码图像建模 (MIM) 中的对数似然与交叉熵

1. 问题背景

在掩码图像建模（MIM）任务中，模型需要预测被遮蔽的图像块对应的视觉词元（可以理解为图像块的离散类别标签）。

具体来说：

每个被遮蔽的图像块 $\in M$ 的真实标签是 $z_i$ （即它原本的视觉词元类别）。
模型通过 Transformer 编码器生成隐藏向量 $h_L^i$ ，然后通过一个分类器（参数为 $W_c, b_c$ ）预测该位置的概率分布 $pMIM(z′∣xM)p_{\text{MIM}}(z' | x^M)$ 。

2. Softmax 分类器的作用

分类器的公式是：
$pMIM(z′∣xM)=softmaxz(WchLi+bc)p_{\text{MIM}}(z' | x^M) = \text{softmax}_z(W_c h_L^i + b_c)$

输入：隐藏向量 $hLi∈RDh_L^i \in \mathbb{R}^D$ （来自 Transformer 的输出）。
参数：权重矩阵 $Wc∈R∣V∣×DW_c \in \mathbb{R}^{|\mathcal{V}| \times D}$ 和偏置 $bc∈R∣V∣b_c \in \mathbb{R}^{|\mathcal{V}|}$ ，其中 $∣V∣|\mathcal{V}|$ 是视觉词元的总类别数。
输出：一个概率分布，表示模型认为被遮蔽块 $i$ 属于每个视觉词元类别的概率。

具体计算步骤：

对每个被遮蔽位置 $i$ ，计算线性变换： $W_c h_L^i + b_c$ ，得到一个长度为 $∣V∣|\mathcal{V}|$ 的向量（称为logits）。
对 logits 应用 softmax 函数，将其转换为概率分布：
$\frac{\exp(\text{logits}[z'])}{\sum_{k=1}^{|\mathcal{V}|} \exp(\text{logits}[k])}$
其中 $z^{'}$ 是某个可能的视觉词元类别。

3. 最大化对数似然（Maximize Log-Likelihood）

目标：让模型对真实标签 $z_i$ 的预测概率尽可能高。

数学表达：
$max⁡θEx∼D[∑i∈Mlog⁡pMIM(zi∣xM)]\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}} \left[ \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \right]$

解释：
- 对每个被遮蔽位置 $i$ ，计算真实标签 $z_i$ 的对数概率 $log⁡pMIM(zi∣xM)\log p_{\text{MIM}}(z_i | x^M)$ 。
- 对所有被遮蔽位置求和，再对所有训练样本 $x$ 求期望。
- 目标是最大化这个总和，即让模型对真实标签的预测概率尽可能大。

4. 交叉熵损失（Cross-Entropy Loss）

交叉熵损失是分类任务中常用的损失函数，定义为：
$LCE=−∑i∈Mlog⁡pMIM(zi∣xM)\mathcal{L}_{\text{CE}} = - \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M)$

解释：
- 对每个被遮蔽位置 $i$ ，计算真实标签 $z_i$ 的负对数概率。
- 对所有被遮蔽位置求和，得到总损失。
- 目标是最小化这个损失，即让真实标签的预测概率尽可能高。

5. 最大化对数似然 vs. 最小化交叉熵

关键结论：
最大化对数似然和最小化交叉熵损失是完全等价的！

具体来说：
$min⁡θ(−∑i∈Mlog⁡pMIM(zi∣xM))\max_{\theta} \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \quad \iff \quad \min_{\theta} \left( - \sum_{i \in M} \log p_{\text{MIM}}(z_i | x^M) \right)$

左边是最大化对数似然（使正确标签的概率最大化）。
右边是最小化交叉熵损失（使正确标签的负对数概率最小化）。

6. 为什么等价？

数学本质：交叉熵损失是负的对数似然。
- 对数似然是 $∑log⁡p\sum \log p$ ，交叉熵是 $−∑log⁡p-\sum \log p$ 。
- 最大化 $A$ 等价于最小化 $- A$ 。
直观理解：
- 如果模型对真实标签的预测概率 $p(z_i)$ 越大，对数似然 $log p(z_i)$ 越大，交叉熵损失 $log p(z_i)$ 越小。
- 例如，若真实标签的概率 $p(z_i) = 0.9$ ，则交叉熵损失为 $−log⁡(0.9)≈0.11-\log(0.9) \approx 0.11$ ；
  若概率 $p(z_i) = 0.1$ ，则损失为 $−log⁡(0.1)≈2.30-\log(0.1) \approx 2.30$ 。
  显然，概率越大，损失越小。

7. 实际训练中的计算

在代码中，通常直接使用交叉熵损失函数（如 PyTorch 的 CrossEntropyLoss）：

# 假设 logits 是模型的输出（未经过 softmax）
# targets 是被遮蔽位置的真实视觉词元标签
loss = F.cross_entropy(logits, targets)

内部过程：
1. 对 logits 应用 softmax，得到概率分布。
2. 计算真实标签的负对数概率。
3. 对所有样本和位置求平均，得到最终损失。

总结

目标：让模型对真实标签的预测概率尽可能高。
数学实现：通过最大化对数似然（等价于最小化交叉熵损失）。
代码实现：直接使用交叉熵损失函数，无需手动计算对数似然。