前言
聚类就是对大量未标注的数据集,按照数据的内在相似性将数据划分为多个类别,使得类别内的数据相似度较大,而类间相似度较小。
1 几种聚类常用距离
- 欧式距离:
d i s t ( X , Y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p \mathrm{dist(}X,Y)=\left( \sum_{i=1}^n{\left| x_i-y_i \right|^p} \right) ^{\frac{1}{p}} dist(X,Y)=(i=1∑n∣xi−yi∣p)p1
一般的情况用欧式距离。 - Jaccard相似系数:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B)=\frac{|A\cap B|}{|A\cup B|} J(A,B)=∣A∪B∣∣A∩B∣
涉及到集合情况用这个。 - 余弦相似度
cos ( θ ) = a T b ∣ a ∣ ⋅ ∣ b ∣ \cos\mathrm{(}\theta )=\frac{a^Tb}{|a|\cdot |b|} cos(θ)=∣a∣⋅∣b∣aTb
词嵌入的时候欧式距离并不合适,而是夹角余弦值比较合适,文档之间也可以。 - Pearson相似系数
ρ X x = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∑ i =