29、高维数据中使用马氏距离进行分布外检测的批判性分析-优快云博客

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/152532848

高维数据中使用马氏距离进行分布外检测的批判性分析

在现实世界的识别任务中，机器学习系统需要将与已知或训练数据差异较大的输入分类为未识别或分布外（Out-of-Distribution，OoD）样本。这在图像或文本识别中尤为重要，因为在开放世界的识别中，为所有可能遇到的类别训练模型是不可行的。然而，像ResNet、DenseNet、EfficientNet等流行的图像或文本分类模型，仍然容易受到人类能够轻易识别的OoD或对抗性示例的影响。

1. 引言

许多当前的方法通过从类条件后验分布获得的置信度分数来识别OoD输入。一种流行且简单的方法是使用多元高斯分布作为类条件分布的模型，这会导致使用马氏距离来估计预测的不确定性。但这些方法依赖于高维数据中概率密度的估计，而卷积神经网络（CNNs）生成的表示的维度通常约为10³，并且类条件分布通常基于不足的训练数据进行估计。

本文的贡献主要有以下几点：
- 分析了高维数据中估计密度的不稳定性。通过模拟数据表明，拟合到训练数据的生成性多元正态（MVN）模型与来自同一分布的测试样本相差甚远，因此基于此模型的OoD检测可能会将测试样本误判为异常值。还分析了这种影响与维度和训练样本大小的关系。
- 分析了基于马氏距离的OoD检测的局限性。由于模型估计误差，接近的OoD样本无法与已知数据区分。能够检测到异常值的离已知数据的最小距离取决于特征的维度和训练样本大小，并且随着训练样本的增大而减小。
- 分析了用于减少模型拟合误差影响的简单修改方法，如使用所有已知数据类共享的一个协方差矩阵，或使用对角协方差矩阵。在OoD基准测试中展示了这些方法的性能，结果表明没有一种基于马氏距离的方法可以被普遍认为是最好的，其性能取决于基准数据集的