43、无监督学习入门:原理、方法与应用

无监督学习入门:原理、方法与应用

1. 无监督学习基础问题

无监督学习旨在从无标签数据中学习模型,其核心在于挖掘数据中的统计模式或潜在结构,主要包括聚类、降维和概率模型估计。

1.1 聚类

聚类是将样本集中相似的样本分配到同一类,不相似的样本分配到不同类的过程。有硬聚类和软聚类之分:
- 硬聚类 :每个样本明确属于一个类别,通过函数 (z = g_{\theta}(x)) 实现,其中 (x) 是样本向量,(z) 是样本所属类别,(\theta) 是参数。
- 软聚类 :每个样本以一定概率属于各个类别,由条件概率分布 (P_{\theta}(z|x)) 决定。

聚类有助于发现数据中的隐藏垂直结构。例如,在二维空间中,可将样本分为不同类别。下面是一个简单的聚类数据集示例:
| 样本 | (x_1) | (x_2) |
| ---- | ---- | ---- |
| A | 1 | 1 |
| B | 1 | 0 |
| C | 0 | 2 |
| D | 2 | 4 |
| E | 3 | 5 |

若使用 k - 均值聚类((k = 2)),操作步骤如下:
1. 随机选取两个点作为两个类别的中心。
2. 根据样本与类别中心的欧氏距离,将样本分配到两个类别中。
3. 计算两个类别中样本的均值,作为新的中心。
4. 重复步骤 2 和 3,直到两个类别不再变化。

最终聚类结果为 A、B 和 C 在一类,D 和 E 在另一类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值