基于图的子主题划分算法GSPSummary:原理、实验与展望
在信息爆炸的时代,文本自动摘要技术对于高效处理和理解大量文档至关重要。本文将详细介绍一种基于图的子主题划分算法——GSPSummary,包括其核心原理、评估指标、算法流程以及实验结果。
1. 子主题定义与摘要问题建模
子主题被定义为:
[subtopic(S|T ) = pc(u) + neighbor(u)]
摘要问题可转化为图划分问题:给定某主题 (T) 的文档集合的句子距离图 (G),由 (N) 个节点 (U = {u_1, u_2, …, u_N}) 组成,以及长度 (l),将 (K) 个子图 (S_i \subseteq U) 划分为 (K) 个子主题,需满足:
- 每个子图有一个显著节点 (u) 及其邻域 (neighbor(u))。
- 以 (u) 作为 (S_i) 的代表节点。
- 所有 (K) 个显著节点的长度之和不超过 (l)。
该任务的关键在于在图 (G) 中找到合适的显著节点 (pc(u)) 及其邻域 (neighbor(u))。
2. GSPRank 评估准则
许多现有方法通过统计评分方法以及更高的语义/句法结构(如修辞分析、词链、共指链)来探索文本中最重要的单元(子句、句子、段落),但这些方法难以获取真正重要的单元,因为重要单元不仅取决于统计特征,还受语义特征和其他领域特征的影响。
为了探索最重要的单元或评估图中的显著节点,我们提出了一种新的句子排名准则——GSPRank,作为 GSPSummary 方法的基础。该准则受信息检索和特征选择思想的启发,句子的显著性得分 (g(u))
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



