基于新型算法的文本摘要与多目标搜索策略研究
基于类型的遗传算法用于提取式文本摘要
在文本处理领域,自动提取式文本摘要一直是重要的研究方向。传统的遗传算法在处理这一问题时存在一定的局限性,而基于类型的遗传算法(Type-based GA)则是对传统遗传算法的改进。
类型遗传算法
基于类型的遗传算法由Sizov和Simovici提出,它是在传统遗传算法基础上发展而来。该算法基于个体分类,在N - 皇后问题和寻找Rosenbrock函数的全局最小值等问题上有应用。在自动提取式文本摘要问题上,它将其视为一个二进制优化问题。通过构建基于内部染色体结构的两种类型的个体,这种新型方法能更好地保留各代中的优质摘要,使变异更易以灵活策略发生,从而更有可能在解空间中找到突出的摘要。
适应度函数
适应度函数在元启发式搜索算法中起着关键作用。以往Garcia和Ledeneva提出结合词频和句子位置特征来构建适应度函数;Meena等人提出测量每个句子重要性的特征集并以可接受的权重进行优化,但这些方法存在耗时的缺点。近期研究表明,相关性和表层句子特征在提取显著句子构建摘要时表现出竞争力,如与主题句的相似度、句子间的相似度、句子位置、句子长度、词频、词权重、摘要与原始源文档的覆盖相似度等。在本研究中,通过句子位置、句子与标题的关系、句子长度和专有名词数量这四个特征来优化适应度函数,这些特征被证明能有效评估文档中句子的重要性。
实验设置
- 数据集 :自动文本摘要任务有多个数据集,本研究选择了DUC2001、DUC2002和CNN/DailyMail三个数据集。DUC200
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



