58、基于模糊邻域和核函数的文本术语聚类

最新推荐文章于 2025-09-19 06:49:42 发布

m0n1o2p

最新推荐文章于 2025-09-19 06:49:42 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

分类专栏：智能信息与工程系统前沿文章标签：模糊邻域核函数文本聚类

本文链接：https://blog.youkuaiyun.com/m0n1o2p/article/details/149376519

智能信息与工程系统前沿专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于模糊邻域和核函数的文本术语聚类

1. 引言

文本挖掘如今是热门话题，虽已提出众多方法，但仍有进一步研究的空间，现有方法也存在不足。我们提出了用于文本挖掘和术语聚类的模糊邻域模型，该方法推广并改进了用于文本分析的向量空间模型，其特点是处理在具有自然拓扑的全集上分散出现的术语。本文将对比该模型的两种 c - 均值聚类方法：一种直接定义相似度度量和聚类中心，并据此开发了硬 c - 均值和模糊 c - 均值算法；另一种是基于核的方法，在术语集上诱导出内积空间，从而推导出另一种 c - 均值聚类算法。同时，我们会利用相关定理和命题给出模糊邻域提供核函数的充分条件，并通过示例展示这些算法的正确性，最后提及核函数对当前框架的意义。

2. 文本集中的术语关系和邻域

假设存在两个集合：
- 术语集 $T$，元素表示为 $t, t’, t_i, \ldots \in T$，$|T|$ 表示 $T$ 中元素的数量，记 $L = |T|$。
- 出现空间 $O$，元素表示为 $a, b, c, \ldots \in O$。

文档集 $D = {d_1, d_2, \ldots, d_n}$，文档 $d$ 由一系列术语的出现组成。一个出现对应一个唯一的术语，术语 $t$ 与出现 $a$ 的对应关系记为 $R(t, a)$，即当 $R(t, a) = 1$ 时，$a$ 对应唯一的 $t$，而 $R(t, \cdot)$ 通常对应多个出现。

定义 $Sqnc(d)$ 为出现序列，例如，若 $Sqnc(d) = abcde$，其中 $a, b, d$ 对应的术语为 $t$，$c$ 和 $e$ 对应的术语为 $t’$，则 $Sqnc(d) = t