无监督学习入门:原理、方法与应用
1. 无监督学习基础问题
无监督学习旨在从无标签数据中学习模型,其核心在于挖掘数据中的统计模式或潜在结构,主要包括聚类、降维和概率模型估计。
1.1 聚类
聚类是将样本集中相似的样本分配到同一类,不相似的样本分配到不同类的过程。有硬聚类和软聚类之分:
- 硬聚类 :每个样本明确属于一个类别,通过函数 (z = g_{\theta}(x)) 实现,其中 (x) 是样本向量,(z) 是样本所属类别,(\theta) 是参数。
- 软聚类 :每个样本以一定概率属于各个类别,由条件概率分布 (P_{\theta}(z|x)) 决定。
聚类有助于发现数据中的隐藏垂直结构。例如,在二维空间中,可将样本分为不同类别。下面是一个简单的聚类数据集示例:
| 样本 | (x_1) | (x_2) |
| ---- | ---- | ---- |
| A | 1 | 1 |
| B | 1 | 0 |
| C | 0 | 2 |
| D | 2 | 4 |
| E | 3 | 5 |
若使用 k - 均值聚类((k = 2)),操作步骤如下:
1. 随机选取两个点作为两个类别的中心。
2. 根据样本与类别中心的欧氏距离,将样本分配到两个类别中。
3. 计算两个类别中样本的均值,作为新的中心。
4. 重复步骤 2 和 3,直到两个类别不再变化。
最终聚类结果为 A、B 和 C 在一类,D 和 E 在另一类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



