8、聚类算法：原理、应用与优化

uran

于 2025-09-16 15:31:08 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精讲文章标签：聚类算法 k-均值期望最大化

本文链接：https://blog.youkuaiyun.com/uran/article/details/152262703

机器学习入门精讲专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类算法：原理、应用与优化

1. 引言

在参数化方法中，我们通常假设样本来自已知的分布。然而，在许多实际应用中，这种假设可能并不成立。为了应对这种情况，我们引入了半参数化方法，该方法允许使用分布的混合来估计输入样本。聚类方法则可以从数据中学习这些混合参数。除了概率建模，本文还将讨论向量量化和层次聚类。

1.1 参数化方法的局限性

参数化方法在密度估计和分类中被广泛应用。例如，在参数化密度估计中，我们假设样本 X 来自某个参数族，如高斯分布。在参数化分类中，我们为每个类别假设一个特定的密度函数。参数化方法的优点是，一旦确定了模型，问题就简化为估计少量的参数。然而，在许多应用中，假设一个严格的参数模型可能会引入偏差。例如，在光学字符识别中，数字 7 有美国和欧洲两种不同的书写风格；在语音识别中，同一个单词可能有不同的发音方式。在这些情况下，样本可能由多个组组成，而不是一个单一的组。

1.2 半参数化密度估计

为了处理样本由多个组组成的情况，我们引入了半参数化密度估计方法。在这种方法中，我们仍然为样本中的每个组假设一个参数模型，但允许这些模型的混合。例如，在光学字符识别中，数字 7 的类别可以表示为两个高斯分布的混合，每个分布对应一种书写风格。

2. 混合密度

混合密度可以表示为：
[p(x) = \sum_{i=1}^{k} p(x|G_i)P(G_i)]
其中，$G_i$ 是混合组件，也称为组或簇；$p(x|G_i)$ 是组件密度；$P(G_i)$ 是混合比例。组件的数量 k 是一个超参数，需要事先指定。给定样本和 k，学习过程对应于估计组件密度和比例。如果组件密度服从参

会员秒杀 ¥9.9 重磅福利

超级会员免费看