聚类算法:原理、方法与应用解析
1. 相似性度量
在聚类方法中,有一些常用的相似性度量方法,这些方法需满足特定性质。常见的相似性度量如下:
- Dice系数 :$s_D(X, Y) = \frac{2(|X \cap Y|)}{|X| + |Y|}$
- Jaccard系数 :$s_J (X, Y) = \frac{|X \cap Y|}{|X \cup Y|}$
- 相关系数 :$s_{\rho}(x, y) = \rho_{xi,yj}$
- 余弦相似度 :$s_{cos}(x, y) = \frac{\sum_{i=1}^{p} x_iy_i}{\sqrt{\sum_{i=1}^{p} x_i^2}\sqrt{\sum_{i=1}^{p} y_i^2}}$
以Jaccard系数为例,假设有两个文本片段:
$X = {Data, Science, is, challenging}$
$Y = {Information, Science, is, modern}$
则$X \cap Y = {Science, is}$,$|X \cap Y| = 2$;$X \cup Y = {Data, Information, Science, is, challenging, modern}$,$|X \cup Y| = 6$。所以,这两个文本片段的Jaccard系数相似度为$s_J (X, Y) = \frac{2}{6} = \frac{1}{3}$。
超级会员免费看
订阅专栏 解锁全文
651

被折叠的 条评论
为什么被折叠?



