背景
KL Loss主要监督的是模型输出分布 VS 目标分布 之间的相似性
它不直接监督位置、速度等数值,而是监督模型「认为哪种可能性更大」是否和目标一致。
在多模态预测、知识蒸馏、策略学习中尤为重要。
KL 散度主要监督什么?
| 项目 | 监督内容 | 应用场景 |
|---|---|---|
| 分布相似性 | 模型输出的概率分布(预测) vs 目标分布(通常是软标签) | 知识蒸馏、轨迹分布、行为克隆等 |
| 不确定性建模 | 模型输出多个选择的分布(如多轨迹) vs 真值分布(soft target) | 轨迹预测、多模态输出 |
| 知识对齐 | 学生网络预测分布 vs 教师网络的 soft 分布 | 蒸馏 |
| 行为模仿/规划策略 | 模型生成的动作分布 vs 专家动作分布 | 模仿学习、策略学习 |
具体例子
- 知识蒸馏(Knowledge Distillation)
监督:
KL(Teacher(logits).softmax || Student(logits).softmax)
目标:让学生网络模仿教师网络输出的“概率分布”,而不是 hard label。
- 轨迹预测(Trajectory Prediction)

最低0.47元/天 解锁文章
1051

被折叠的 条评论
为什么被折叠?



