聚类算法全解析:从基础到高级应用
1. 引言
在传统的参数方法中,我们通常假定样本来自已知的分布。然而,在许多实际应用场景中,这样的假设并不成立。此时,我们需要采用半参数方法,允许使用分布的混合来估计输入样本。聚类方法就是一种从数据中学习混合参数的有效手段。除了概率建模,聚类还涉及向量量化和层次聚类等内容。
传统的参数密度估计方法假设样本 X 来自某个参数族,例如高斯分布。在参数分类中,这意味着为每个类别的密度 $p(x|C_i)$ 假定一个特定的密度函数。参数方法的优势在于,一旦确定了模型,问题就简化为估计少量的参数。以高斯密度为例,这些参数就是密度的充分统计量,如均值和协方差。
然而,过于严格地假定参数模型可能会在很多应用中引入偏差。在实际情况中,样本往往并非单一的群体,可能存在多个不同的组。例如,在光学字符识别中,数字 7 有美国和欧洲两种不同的书写风格;在语音识别中,同一个单词也可能因发音、口音、性别、年龄等因素而有不同的发音方式。因此,我们需要一种更灵活的方法来表示这些数据,这就是半参数密度估计。
2. 混合密度
混合密度可以表示为:
[p(x) = \sum_{i=1}^{k} p(x|G_i)P(G_i)]
其中,$G_i$ 是混合成分,也称为组或簇;$p(x|G_i)$ 是成分密度,$P(G_i)$ 是混合比例。成分的数量 $k$ 是一个超参数,需要事先指定。给定样本和 $k$,学习的过程就是估计成分密度和比例。当假设成分密度服从参数模型时,我们只需估计其参数。如果成分密度是多元高斯分布,即 $p(x|G_i) \sim N(\mu_i, \Sigma_i)$,那么 $\Phi = {P(G_i),
聚类算法详解:从原理到应用
超级会员免费看
订阅专栏 解锁全文
2210

被折叠的 条评论
为什么被折叠?



