机器学习基础:策略与技术
1. 支持向量机(SVM)与数据空间维度提升
支持向量机(SVM)可以提升数据空间的维度,直至一个 (N - 1) 超平面能够分离不同的类别。例如,将二维图形转换为三维空间,这样一个 N = 2 的超平面就可以提供一个边界。
2. K - 均值算法(KM)
2.1 算法概述
K - 均值算法是一种经典的聚类算法,与 K 近邻算法不同,它属于无监督学习。该算法尝试在无标签数据中寻找聚类。
2.2 算法步骤
- 猜测聚类数量 :首先对数据集中的聚类数量 K 进行一个初始猜测,后续会对这个值进行优化。
- 随机选择伪中心 :随机猜测每个聚类的中心点位置,创建 k 个伪中心。这些伪中心应彼此保持合理的距离,并且可以随机选择(除非对数据结构有先验知识)。
- 分配数据点 :将数据集中的每个点分配给其最近的伪中心。
- 更新伪中心位置 :更新每个聚类的伪中心位置,使其成为该聚类中所有成员的中心。
- 递归操作 :重复上述步骤,直到聚类成员不再发生变化。
2.3 确定最佳 K 值
可以通过绘制类内离散度与聚类数量的函数关系图来确定最佳的 K 值。当 K 等于数据点的数量时,每个聚类内显然没有方差,因为每个聚类只包含一个元素。聚类数量越少,聚类内的方差越大。当方差作为
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



