作者:禅与计算机程序设计艺术
1.简介
一、任务描述
Natural language generation (NLG) ,即自然语言生成,是指从计算机系统生成自然语言的能力。自动文本生成引擎能够帮助人们更好地沟通,改善信息传递过程中的效率,提高工作质量,并减少重复劳动。然而,现有的基于规则的方法往往存在缺陷,在生成的句子质量上存在明显的不足。如何利用机器学习、强化学习等新型机器学习技术有效地解决这一问题,成为目前研究热点。本文将对深度强化学习(DRL)进行探讨,进而提出一种基于 DRL 的 NLG 方法。
根据 NLG 的需求特点,一般包括文本摘要、问答生成、内容创作、客服回复等多个应用场景。根据这些应用场景的不同,可以将 NLG 分为三类任务:单轮 NLG、多轮 NLG 和零样本 NLG。单轮 NLG 是最简单的情况,只需要生成一个固定长度的文本,如摘要生成;多轮 NLG 需要生成连贯的、结构化的文本,如故事生成;零样本 NLG 需要生成大量不同的文本,用于训练和评估模型的泛化性能,如模板抽取。
(1)单轮 NLG
- Summarization
摘要生成(summarization)是指通过获取输入文档的关键信息,利用关键词和语句,合理地组织成较短但具有代表性的输出文本。传统的摘要生成方法一般采用关键句选取、句子聚类、摘要抽取等算法。由于篇幅限制,本文只对基于深度强化学习的摘要生成方法进行分析。 - Question Answering
问答生成(question answering)是指