自然语言处理中的文本摘要、推荐、翻译与问答系统
1. 文本摘要器的部署与选择
在实际应用中,若要将摘要器作为产品特性进行部署,有诸多要点需留意。通常,我们会倾向于使用现成的摘要器,而非从头开始开发。不过,若现有算法不契合项目场景或表现不佳,或者处于研发组织,旨在推动摘要系统的技术前沿,那么自行开发摘要器或许是必要之举。
1.1 摘要算法的评估
在研究领域,摘要方法常借助人类创建的参考摘要通用数据集进行评估,比如基于 n - 元语法重叠的 ROUGE 指标。但这些数据集未必完全适配具体用例,因此,最佳方式是创建自己的评估集,或者请人工标注人员依据连贯性、摘要准确性等方面对不同算法生成的摘要进行评分。
1.2 部署摘要器的实际问题
- 预处理步骤 :句子分割等预处理步骤对输出摘要起着关键作用。多数库虽有内置的句子分割器,但对于不同输入数据,可能会出现错误的分割情况,目前尚无通用解决方案,可能需针对项目中遇到的数据格式开发自定义方案。
- 文本长度敏感性 :多数摘要算法对输入文本的大小较为敏感。例如,TextRank 算法的时间复杂度为多项式,处理大篇幅文本时会消耗大量计算时间。应对方法可以是对大文本进行分区处理并拼接摘要,或者仅处理文本的前 M% 和后 N% 部分。
1.3 摘要类型
目前我们主要探讨的是提取式摘要,而抽象式摘要更多地属于研究范畴,常见的应用场景包括新闻标题生成、新闻摘要生成和问答系统。近年来,深度学习和强化学习方法在抽象式摘要方面展现出了一定的潜力。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



