26、机器学习基础:聚类与概率模型

机器学习基础:聚类与概率模型

1. 确定 K 值的方法

在机器学习中,我们常常会遇到聚类的问题,而确定合适的聚类数量 K 是关键。我们可以通过绘制簇内离散度与聚类数量的函数关系图来确定 K 的最佳选择。

极端情况分析

当 K 等于数据点的数量时,每个簇显然没有方差,因为每个簇仅由一个元素组成。而聚类数量越少,簇内的方差就越大。

方差与 K 的关系

当将方差绘制成关于 K 的函数时,这个方程类似于指数衰减。我们很容易找到一个 K 值,使得更大的 K 值不会显著改变整体方差。这类似于主成分分析(PCA)中使用的所谓“碎石图”。

下面用一个简单的流程图展示确定 K 值的思路:

graph TD;
    A[开始] --> B[绘制簇内离散度与聚类数量的函数图];
    B --> C[观察方差随 K 的变化];
    C --> D[找到使方差变化不显著的 K 值];
    D --> E[结束];

2. 概率模型的引入

在之前的内容中,我们利用聚类和距离的基本构建块来学习数据之间的关系,并利用这些关系预测类别标签。现在,我们换一种思路来解决这个问题。

问题的提出

给定一个未知示例的特征集,它属于某个给定类别的概率是多少?更准确地说,如果我们用 X 表示已知的变量,即实例的特征值,用 Y 表示目标变量,即实例的类别,那么我们希望使用机器学习来建模 X 和 Y 之间的关系。

条件概

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值