聚类算法:原理、应用与实践
1. 聚类算法概述
聚类算法的核心目标是将一组对象划分成不同的组或簇。以布朗语料库中22个高频词的聚类为例,其展示形式为树状图,树状图通过节点连接的高度体现底部节点间的相似度。每个节点代表一个簇,由两个子节点合并而成。例如,“in”和“on”形成一个簇,“with”和“for”也形成一个簇,随后这两个子簇合并成包含四个对象的簇。节点的“高度”反映了合并的两个簇之间相似度的降低。
在聚类中,对象通常使用一组特征和值(数据表示模型)进行描述和聚类,多个对象可能在该模型中有相同的表示。因此,聚类算法通常处理的是允许有多个相同项的“包”结构。聚类的目标是将相似的对象放在同一组,将不相似的对象分配到不同组。
词之间的“相似度”衡量方式是,统计布朗语料库中每个词的左右邻词分布,通过这些邻词分布的重叠程度来度量词的相似度。例如,“in”和“on”相似度高,因为它们的左右邻词相似;而“is”和“he”相似度低,因为它们的语法功能不同,邻词重叠少。聚类过程初始时每个词自成一个簇,然后逐步合并最相似的簇。
2. 聚类在统计自然语言处理中的主要用途
聚类在统计自然语言处理中有两个主要用途:探索性数据分析(EDA)和泛化。
2.1 探索性数据分析
探索性数据分析是处理定量数据的重要步骤。在统计自然语言处理中,由于语言对象通常缺乏直观的可视化方式,聚类成为一种重要的EDA技术。通过聚类,即使不懂英语的人也能从树状图中大致将单词按词性分组,这有助于后续分析。同时,还可以利用聚类评估基于邻词重叠的词性相似度度量方法的优劣。不过,基于邻词的表示方法在处理介词时效果较好,但对于“this”和“the
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



