4.1 Introduction 介绍
4.1.1 Notation 符号
一般矩阵用大写加粗的字母,向量用小写加粗字体。
4.1.2 Basics 基础
回顾一下多元高斯概率密度函数:
首先,我们来胡扯一下。不不不,不对,首先我们来解释一下马氏距离(Mahalanobis Distance)的概念。和欧式距离(Euclidean distance)一样,马氏距离可以计算两点之间的距离,但是在计算距离的时候,同时会考虑整体样本的分布情况,所以可以说马氏距离也是衡量一个点与一个分布之间的标准。
假设多维的高斯分布均值为 μ=(μ1,...,μn),那么定义变量 x=(x1,...,xn) 两点之间的欧氏距离为
在统计上,我们希望寻找一个这样的距离,沿着某方向分量上的数据如果比较离散,则给一个较小的权重。假设有
这里的 Σ=diag(s21,⋯,s2n)
那么以原点为中心,马氏距离 ∥x∥=c 的所有点集合为一个椭球体,
好了,上面都是根据某篇博客胡编的,下面来看书里是怎么解读多元高斯分布的概率密度函数的。
首先,协方差矩阵 Σ 是一个实对称矩阵,必然可以正交对角化。有 Σ=UTΛU,其中 U 为正交矩阵(orthonormal matrix),即满足 UTU=I,由矩阵 Σ 的特征向量组成;Λ 为对角矩阵(diagonal matrix),对角元素为 Σ 的特征值。同理: