1. 介绍
- 通常的无监督学习问题
- 给定 N N N个没有标签的样本 { x 1 , … , x N } \{x_1,\dots,x_N\} { x1,…,xN}
- 将示例分组为K个“同类”的分区
- 一个好的聚类是实现
- 群内相似度高
- 群集间相似度低
2. 算法步骤
- 确定类别个数 k k k
- 随机初始化 k k k个类的中心,分别为 μ 1 , … , μ k \mu_1,\dots,\mu_k μ1,…,μk
- 确定每个样本的类别,原则为样本与类中心的距离最小(下面计算的是样本点与中心点的欧式距离,可以根据情况选择合适的公式计算数据的相似度),即
C k ∗ = { x i : k ∗ = arg min k ∥ x i − μ k ∥ 2 } \mathcal { C } _ { k ^ { * } } = \left\{ x _ { i } : k ^ { * } = \arg \min _ { k } \left\| x _ { i } - \mu _ { k } \right\| ^ { 2 } \right\} Ck