基于维基百科平滑技术提升文本聚类效果
在文本聚类领域,如何有效提升聚类的准确性和质量一直是研究的重点。本文介绍了一种基于维基百科的平滑方法,旨在通过利用维基百科的丰富知识来增强文本聚类的效果。
平滑方法介绍
1. 基于特征的平滑方法
- TopF - Content :此方法仅使用维基百科文章的内容进行平滑。对于文档的每个特征 $f_i$,有对应的维基百科文章集合 $Df_i$。$p(w | S)$ 的计算公式为:
$p_1(w|S)=\sum_{i = 1}^{m} \alpha_i p_{ML}(w|Df_i)$
其中,$\alpha_i$ 是权重,其定义为:
$\alpha_i = \frac{2 * (m - i + 1)}{m * (m + 1)}$,且 $\sum_{i = 1}^{m} \alpha_i = 1$ - TopF - Content&Cat :除了文章内容,还使用文章的类别信息进行平滑。$p(w | S)$ 的计算公式为:
$p_2(w|S)=\sum_{i = 1}^{m} \alpha_i [(1 - \gamma) * p_{ML}(w|Df_i) + \gamma * p_{ML}(w|Catf_i)]$
这里,$\gamma$ 是用于组合内容和类别概率的参数。
2. 基于相似度的平滑方法
- Sim - Content :根据文章与每个文档的相似度对维基百科文章的内容进行加
维基百科平滑提升文本聚类效果
超级会员免费看
订阅专栏 解锁全文
340

被折叠的 条评论
为什么被折叠?



