句子聚类中的相似性词序列核方法
在自然语言处理领域,句子聚类是一项重要的任务,旨在将相似的句子归为一类。本文将介绍基于核方法的 C - 均值聚类算法,以及词序列核(WSK)和双语词序列核(BWSK)在句子聚类中的应用,并通过实验分析不同核函数和参数设置对聚类效果的影响。
1. 基于核的 C - 均值聚类
C - 均值算法的目标是最小化每个样本到其所属簇中心的平方距离之和。给定类别数 $C$,算法通过以下公式找到局部最优解:
$\hat{z} = \arg \min_{z} \left{ \frac{1}{N} \sum_{c = 1}^{C} \sum_{n = 1}^{N} z_{nc} d(x_n, m_c) \right}$
其中,若 $x_n$ 属于第 $c$ 个簇,$z_{nc} = 1$,否则为 $0$;$m_c$ 是第 $c$ 个簇的中心,$m_c = \frac{1}{N_c} \sum_{n = 1}^{N} z_{nc} x_{nc}$,$N_c$ 是第 $c$ 个簇中的样本数。距离函数 $d(x_n, m_c)$ 通常采用欧几里得距离:
$d(x_n, m_c) = (x_n - m_c)^T (x_n - m_c)$
C - 均值算法使用的距离可以是半度量或度量,取决于是否满足三角不等式。通过 Mercer 核扩展 C - 均值算法,可以更好地处理非线性可分的数据。扩展后的距离函数为:
$d(x_n, m_c) = (\varphi(x_n) - m_c)^T (\varphi(x_n) - m_c)$
其中,$m_c = \frac{1}{N_c} \sum_{n = 1}^{N} z_{nc} \varphi(x
超级会员免费看
订阅专栏 解锁全文
686

被折叠的 条评论
为什么被折叠?



