距离一般分为4类
1、空间中的距离。
2、字符串的距离。
3、集合的相似度。
4、变量/概率分布间的距离。
一、空间中点的距离
闵可夫斯基距离、曼哈顿距离、欧式距离和切比雪夫距离都会受到量纲影响,马氏距离不受量纲影响,为了消除量纲对距离的影响可以考虑对数据进行标准化,标准化之后量纲就完全不会对距离值产生影响,也就是完全消除了量纲的影响,因为不同量纲的同一数据集,标准化之后同一数据的值是相同的,我已经证明过了不需要再考虑。
闵可夫斯基距离
公式:,范数是
曼哈顿距离
曼哈顿距离也称l1距离或城市街区距离,它是闵可夫斯基