机器学习中的聚类、神经网络与深度学习及疾病检测应用
一、K-means 聚类算法
1.1 聚类概述
聚类是一种无监督学习方法。K-means 聚类基于数据点的属性进行聚类,使得同一组内的数据尽可能相似,不同组的数据尽可能不同。在开始聚类过程之前,需要指定聚类的数量。
1.2 中心选择
目标是最小化数据点 (x_n) 与最近中心 (m_k) 之间的距离。将 (x_1, x_2, \cdots, x_n) 划分为 (s_1, s_2, \cdots, s_k) 个聚类,并为每个聚类分配一个中心 (m_1, m_2, \cdots, m_k),通过以下公式实现:
[
\minimize \sum_{k = 1}^{K} \sum_{x_n \in s_k} |x_n - m_k|^2
]
1.3 Lloyd 算法
这是一个迭代算法,迭代地最小化上述公式,关于 (m_k) 和 (s_k) 进行优化:
- 中心更新:(m_k = \frac{1}{|s_k|} \sum_{x_n \in s_k} x_n)
- 聚类分配:(s_k = {x_n : |x_n - m_k| \leq \text{all} |x_n - m_l|})
直到收敛或达到局部最小值。
1.4 K-means 聚类算法步骤
- 获取数据点。
- 分配初始质心。
- 输入新样本,计算其与每个质心的距离,将样本分配到最近的聚类,并更新质心。
- 重复步骤 3,直到覆盖所有样本。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



