机器学习中的距离与概率模型
1. 距离模型概述
距离模型与线性模型一样,具有很强的几何直观性。常见的距离度量包括:
- Minkowski距离(p - 范数) :特殊情况有欧几里得距离(p = 2)和曼哈顿距离(p = 1)。
- 汉明距离 :用于计算不同位或文字的数量。
- 马氏距离 :可对特征进行去相关和归一化。
2. 从核到距离
核函数可以用于扩展线性模型的能力。核是一个函数κ(xi, xj) = φ(xi)·φ(xj),它能在某些特征空间中计算点积,而无需显式构造特征向量φ(x)。由于欧几里得距离与点积密切相关,我们可以将“核技巧”应用于许多基于距离的学习方法。
欧几里得距离可以用点积重写:
Dis2(x, y) = ||x - y||2 = (x - y)·(x - y) = x·x - 2x·y + y·y
将点积替换为核函数κ,可构造核化距离:
Disκ(x, y) = √(κ(x, x) - 2κ(x, y) + κ(y, y))
当κ是正半定核时,Disκ定义了一个伪度量。
2.1 核化K - 均值算法
算法8.5将K - 均值算法改编为使用核化距离。该算法根据实例空间中的非线性距离进行聚类,对应于隐式特征空间中的欧几里得距离。但存在一个问题,定理8.1不适用于非线性距离,因此无法在实例空间中构造聚类中心。
距离与概率模型解析
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



