多语言自动文本摘要与混合特征选择方法研究
在自然语言处理和机器学习领域,自动文本摘要和特征选择是两个重要的研究方向。本文将介绍一种基于图的多语言自动文本摘要方法,以及一种结合人工蜂群算法(ABC)、粒子群算法(PSO)和遗传算法(GA)的混合特征选择方法。
多语言自动文本摘要方法
为了测试该多语言自动文本摘要方法,研究人员使用了MultiLing’15研讨会的测试语料库,并以其中一个参与系统作为基线。该方法在多种语言的召回率上有显著提升。在精度方面,使用图的浓密路径改进了原始的评分方法。然而,尝试提取连贯句子会导致摘要召回率略有下降。因此,需要重新制定该方法,以在信息性、非冗余性和连贯性之间找到平衡。
研究人员将相似度阈值固定为句子相似度的平均值,但该阈值的值会极大影响方法的性能,需要在未来的工作中进一步研究。此外,还可以考虑带有一些条件的迭代图,以防止不收敛的情况。
特征选择方法概述
分类问题可以通过机器学习算法和有效的特征选择(FS)方法得到很好的解决。FS算法可作为过滤冗余和无关特征的过滤器,主要分为三种类型:过滤式、包装式和嵌入式方法。
- 过滤式方法 :通过应用统计方法评估特征相关性。
- 包装式方法 :基于机器学习算法的评估来找到最佳特征子集。
- 嵌入式方法 :将过滤式方法融入包装式方法中。
现有的FS方法结合了各种评估指标和搜索策略来选择最优特征子集,但没有一种方法能在所有类型的数据上都优于其他方法。因此,
超级会员免费看
订阅专栏 解锁全文
1825

被折叠的 条评论
为什么被折叠?



