机器学习基础:聚类与概率模型
1. 确定 K 值的方法
在机器学习中,我们常常会遇到聚类的问题,而确定合适的聚类数量 K 是关键。我们可以通过绘制簇内离散度与聚类数量的函数关系图来确定 K 的最佳选择。
极端情况分析
当 K 等于数据点的数量时,每个簇显然没有方差,因为每个簇仅由一个元素组成。而聚类数量越少,簇内的方差就越大。
方差与 K 的关系
当将方差绘制成关于 K 的函数时,这个方程类似于指数衰减。我们很容易找到一个 K 值,使得更大的 K 值不会显著改变整体方差。这类似于主成分分析(PCA)中使用的所谓“碎石图”。
下面用一个简单的流程图展示确定 K 值的思路:
graph TD;
A[开始] --> B[绘制簇内离散度与聚类数量的函数图];
B --> C[观察方差随 K 的变化];
C --> D[找到使方差变化不显著的 K 值];
D --> E[结束];
2. 概率模型的引入
在之前的内容中,我们利用聚类和距离的基本构建块来学习数据之间的关系,并利用这些关系预测类别标签。现在,我们换一种思路来解决这个问题。
问题的提出
给定一个未知示例的特征集,它属于某个给定类别的概率是多少?更准确地说,如果我们用 X 表示已知的变量,即实例的特征值,用 Y 表示目标变量,即实例的类别,那么我们希望使用机器学习来建模 X 和 Y 之间的关系。
超级会员免费看
订阅专栏 解锁全文
857

被折叠的 条评论
为什么被折叠?



