聚类算法:原理、应用与优化
1. 引言
在参数化方法中,我们通常假设样本来自已知的分布。然而,在许多实际应用中,这种假设可能并不成立。为了应对这种情况,我们引入了半参数化方法,该方法允许使用分布的混合来估计输入样本。聚类方法则可以从数据中学习这些混合参数。除了概率建模,本文还将讨论向量量化和层次聚类。
1.1 参数化方法的局限性
参数化方法在密度估计和分类中被广泛应用。例如,在参数化密度估计中,我们假设样本 X 来自某个参数族,如高斯分布。在参数化分类中,我们为每个类别假设一个特定的密度函数。参数化方法的优点是,一旦确定了模型,问题就简化为估计少量的参数。然而,在许多应用中,假设一个严格的参数模型可能会引入偏差。例如,在光学字符识别中,数字 7 有美国和欧洲两种不同的书写风格;在语音识别中,同一个单词可能有不同的发音方式。在这些情况下,样本可能由多个组组成,而不是一个单一的组。
1.2 半参数化密度估计
为了处理样本由多个组组成的情况,我们引入了半参数化密度估计方法。在这种方法中,我们仍然为样本中的每个组假设一个参数模型,但允许这些模型的混合。例如,在光学字符识别中,数字 7 的类别可以表示为两个高斯分布的混合,每个分布对应一种书写风格。
2. 混合密度
混合密度可以表示为:
[p(x) = \sum_{i=1}^{k} p(x|G_i)P(G_i)]
其中,$G_i$ 是混合组件,也称为组或簇;$p(x|G_i)$ 是组件密度;$P(G_i)$ 是混合比例。组件的数量 k 是一个超参数,需要事先指定。给定样本和 k,学习过程对应于估计组件密度和比例。如果组件密度服从参
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



