机器学习进阶(10):K-means的推导和算法理解

前言

聚类就是对大量未标注的数据集,按照数据的内在相似性将数据划分为多个类别,使得类别内的数据相似度较大,而类间相似度较小。

1 几种聚类常用距离
  1. 欧式距离:
    d i s t ( X , Y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p \mathrm{dist(}X,Y)=\left( \sum_{i=1}^n{\left| x_i-y_i \right|^p} \right) ^{\frac{1}{p}} dist(X,Y)=(i=1nxiyip)p1
    一般的情况用欧式距离。
  2. Jaccard相似系数:
    J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B)=\frac{|A\cap B|}{|A\cup B|} J(A,B)=ABAB
    涉及到集合情况用这个。
  3. 余弦相似度
    cos ⁡ ( θ ) = a T b ∣ a ∣ ⋅ ∣ b ∣ \cos\mathrm{(}\theta )=\frac{a^Tb}{|a|\cdot |b|} cos(θ)=abaTb
    词嵌入的时候欧式距离并不合适,而是夹角余弦值比较合适,文档之间也可以。
  4. Pearson相似系数
    ρ X x = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∑ i =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值