58、基于模糊邻域和核函数的文本术语聚类

基于模糊邻域和核函数的文本术语聚类

1. 引言

文本挖掘如今是热门话题,虽已提出众多方法,但仍有进一步研究的空间,现有方法也存在不足。我们提出了用于文本挖掘和术语聚类的模糊邻域模型,该方法推广并改进了用于文本分析的向量空间模型,其特点是处理在具有自然拓扑的全集上分散出现的术语。本文将对比该模型的两种 c - 均值聚类方法:一种直接定义相似度度量和聚类中心,并据此开发了硬 c - 均值和模糊 c - 均值算法;另一种是基于核的方法,在术语集上诱导出内积空间,从而推导出另一种 c - 均值聚类算法。同时,我们会利用相关定理和命题给出模糊邻域提供核函数的充分条件,并通过示例展示这些算法的正确性,最后提及核函数对当前框架的意义。

2. 文本集中的术语关系和邻域

假设存在两个集合:
- 术语集 $T$,元素表示为 $t, t’, t_i, \ldots \in T$,$|T|$ 表示 $T$ 中元素的数量,记 $L = |T|$。
- 出现空间 $O$,元素表示为 $a, b, c, \ldots \in O$。

文档集 $D = {d_1, d_2, \ldots, d_n}$,文档 $d$ 由一系列术语的出现组成。一个出现对应一个唯一的术语,术语 $t$ 与出现 $a$ 的对应关系记为 $R(t, a)$,即当 $R(t, a) = 1$ 时,$a$ 对应唯一的 $t$,而 $R(t, \cdot)$ 通常对应多个出现。

定义 $Sqnc(d)$ 为出现序列,例如,若 $Sqnc(d) = abcde$,其中 $a, b, d$ 对应的术语为 $t$,$c$ 和 $e$ 对应的术语为 $t’$,则 $Sqnc(d) = t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值