科研社区提取与评论情节过滤:算法改进与系统构建
1. 科研社区提取算法改进
在当今的科研领域,从文献数据中提取研究社区是一项重要的任务。它有助于发现研究趋势、促进信息推荐等。目前,已有许多算法用于提取网络社区,主要分为利用局部信息和全局信息两类。
1.1 研究背景与动机
以往的一些算法,如基于枢纽 - 权威的方法,虽然能有效提取图中的全局关系,但对于一些由杰出论文和相关研究构成的重要社区,仅依靠全局信息很难提取。因此,我们采用最大流社区策略来提取紧凑的研究关系。
在最大流社区算法中,社区节点的排名效率至关重要。之前的研究对排名进行了改进,考虑了节点与种子节点的连接性,但初始种子的选择仍然是关键问题。实验发现,许多提取的社区不合适,往往过大,难以理解其主题。
1.2 相关定义与算法
- 网络社区定义 :无向图 $G = (V, E)$ 的社区是一个子集 $C \subseteq V$,对于所有节点 $v \in C$,$v$ 连接到 $C$ 中节点的边至少与连接到 $(V - C)$ 中节点的边一样多。
- 原始最大流算法 :对于任意节点 $s$ 和 $t$,计算 $s - t$ 最大流,使 $s$ 和 $t$ 被饱和边的最小割集分隔。移除所有饱和边,将从种子节点集合 $S$ 中的节点可达的所有节点添加到社区节点集合 $C$ 中。然后根据节点的入度和出度计算 $C$ 中节点的排名,将排名较高的节点移动到 $S$ 中,重复上述过程直到 $C$ 稳定,得到的连通子图称为最大流社区。