文本分割的动态规划模型
在文本处理领域,文本分割是一项重要的任务,它旨在将文本划分为具有不同子主题的段落。理想的文本分割应使段内相似度高,段间相似度低,但以往的研究未能同时优化这两个方面。本文将介绍一种名为 MMS 的全局优化模型,它在文本分割上表现出色。
相关工作
现有的文本分割算法可根据分割标准分为两类:
- 基于段内高词汇相似度 :通过测量段内词汇密度来寻找词汇同质的文本片段。
- 基于段间低词汇相似度 :假设不同段之间的词汇相似度低,子主题边界对应相邻文本片段词汇相似度最低的位置。
与以往工作不同,本文的 MMS 模型不仅关注段内或段间的词汇关系,还综合考虑了这两个因素,并将文本的基本结构因素(如段长和句子距离)纳入分割标准的设计中。
部分相关研究存在一定局限性:
- Zhu 使用多重判别分析(MDA)准则函数来寻找最佳分割,但采用全搜索方法,计算复杂度高。
- Fragkou 使用动态规划优化分割成本函数,但仅考虑段内相似度,且需要段长的先验信息。
分割算法
问题定义
假设文本由 $K$ 个句子组成,记为 $S = {1, 2, …, K}$,词汇表包含 $T$ 个不同的单词,记为 $V = {w_1, w_2, …, w_T}$。每个句子可表示为 $T$ 维数据空间中的一个点。若文本中有 $N$ 个段落,文本分割的任务就是将句子划分为 $N$ 个组,分割目标是在所有可能的分割中找到最佳分割 $G^ $。本文设计了一个准则函数 $J$ 来评估文本分割,寻找最佳
超级会员免费看
订阅专栏 解锁全文
3835

被折叠的 条评论
为什么被折叠?



