基于模糊邻域和核函数的文本术语聚类
1. 引言
文本挖掘如今是热门话题,虽已提出众多方法,但仍有进一步研究的空间,现有方法也存在不足。我们提出了用于文本挖掘和术语聚类的模糊邻域模型,该方法推广并改进了用于文本分析的向量空间模型,其特点是处理在具有自然拓扑的全集上分散出现的术语。本文将对比该模型的两种 c - 均值聚类方法:一种直接定义相似度度量和聚类中心,并据此开发了硬 c - 均值和模糊 c - 均值算法;另一种是基于核的方法,在术语集上诱导出内积空间,从而推导出另一种 c - 均值聚类算法。同时,我们会利用相关定理和命题给出模糊邻域提供核函数的充分条件,并通过示例展示这些算法的正确性,最后提及核函数对当前框架的意义。
2. 文本集中的术语关系和邻域
假设存在两个集合:
- 术语集 $T$,元素表示为 $t, t’, t_i, \ldots \in T$,$|T|$ 表示 $T$ 中元素的数量,记 $L = |T|$。
- 出现空间 $O$,元素表示为 $a, b, c, \ldots \in O$。
文档集 $D = {d_1, d_2, \ldots, d_n}$,文档 $d$ 由一系列术语的出现组成。一个出现对应一个唯一的术语,术语 $t$ 与出现 $a$ 的对应关系记为 $R(t, a)$,即当 $R(t, a) = 1$ 时,$a$ 对应唯一的 $t$,而 $R(t, \cdot)$ 通常对应多个出现。
定义 $Sqnc(d)$ 为出现序列,例如,若 $Sqnc(d) = abcde$,其中 $a, b, d$ 对应的术语为 $t$,$c$ 和 $e$ 对应的术语为 $t’$,则 $Sqnc(d) = t
超级会员免费看
订阅专栏 解锁全文
2204

被折叠的 条评论
为什么被折叠?



