自然语言生成:从基础到应用
1. 自然语言生成概述
自然语言生成(NLG)是一项将非语言信息源(如知识库中的原始数据或场景)的信息映射为相应语言形式(口头或书面文本),以实现非语言目标的计算任务。它是一个紧密集成的认知、社会和物理活动,涵盖从规划行动到执行(言语化)的广泛范围。
在自然语言生成过程中,涉及诸多决策和选择,传统上包括内容的确定与结构化、不同层面的修辞组织呈现、合适词汇和句法结构的选择,以及文本布局或声学模式的确定等。构建能在合理时间内生成自然文本的理论和计算架构,是该领域面临的重大挑战之一。
虽然人人都会说语言,但水平参差不齐。有人认为构建NLG系统有助于解开语言在人脑中运作机制的谜团,也有人将其视为解决实际问题的途径,如机器翻译、口语对话系统、自动写作辅助、文本摘要和多模态系统等。然而,由于涉及的选择数量多、种类繁杂且相互依存,我们对这一过程的理解仍不完整。
在异层级组织系统(如生物学、社会或自然语言)中,一个选择的后果可能是多样、深远且不可预测的,各选择之间还存在多重且灵活的相互依存关系。这就如同一个优秀的政治家和一个能有效沟通的人一样,都需要在正确的时刻做出正确的选择。学习这些选择以及做出选择的时机,是构建有效NLG系统的重要任务。
1.1 语言的功能视角
掌握语言生成所需的决策是另一个重大挑战。NLG需要整合多种知识源,包括领域知识、语言知识、战略修辞知识、话语连贯知识等。此外,构建成功的NLG系统还需要工程知识以及对终端用户特征、习惯和约束的了解,以确定合适的语言输出。
当考虑生成连贯文本而非孤立句子时,NLG的知识密集、灵活且高度依赖上下文的特性就会更加明显。连贯文本的生
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



