Deep Learning in Natural Language Processing中文连载（二）

最新推荐文章于 2024-01-06 21:44:47 发布

原创

最新推荐文章于 2024-01-06 21:44:47 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

第一章

自然语言处理与深度学习介绍

邓力、刘洋

摘要，在本章中，我们搭建起了这本书的基本框架。我们首先会介绍作为人工智能领域中重要组成部分的自然语言处理（NLP）的相关基础知识。接下来，我们会回顾NLP跨越50年，历经三波浪潮的发展历史。前两波浪潮源于理性主义和经验主义，并为现在的深度学习浪潮铺平了道路。支撑NLP深度学习革命的关键，主要是以下几个方面：（1）基于词嵌入的语言实体的分布式表示，（2）基于词嵌入的语义泛化，（3）对自然语言长、深序列建模，（4）从低到高有效表达语言层级的层次网络，以及（5）端到端深度学习方法联合求解多个NLP任务。在回顾完之后，我们会分析几个当前NLP深度学习技术的关键局限，而此分析又会引出NLP在未来发展中的五个研究方向。

1.1 自然语言处理：基础知识

自然语言处理研究的是，出于执行一些有用任务的目的，如何使用计算机来处理或者理解人类语言。自然语言处理是一个跨学科的领域，涵盖计算语言学、计算科学、认知科学以及人工智能。从科学的角度看，自然语言处理旨在对人类语言理解和产生的认知机制进行建模，从工程的角度看，自然语言处理关心的是如何开发新的实用应用程序以促进计算机与人类语言的交互。自然语言处理中的典型应用包括语音识别、口语理解、对话系统、词法分析、机器翻译、知识图谱、信息检索、问答系统、情感分析、社会计算、自然语言生成与自然语言摘要，这些自然语言处理的应用领域构成了这本书的核心内容。

自然语言是专门为表达语义而构建的系统，其基本性质是符号或离散系统。自然语言中表面或者显式的“物理”信号称为文本，总是以符号形式出现。文本“信号”有其对应的语音信号，后者可以看作是符号文本的连续对应，两者都具有自然语言相同的潜在语言层次。从自然语言处理和信号处理的角度来看，语音可以被视为文本的“噪声”版，在执行理解公共底层语义的任务时，必要的“去噪”会带来额外的困难。本书的第2、3章以及当前的第1章详细地介绍了NLP的语音方面，而其余的章节则直接从文本开始，讨论各种各样的面向文本的任务，这些任务举例说明了机器学习技术（尤其是深度学习）所支持的一般NLP应用。

自然语言的符号特性完全不同于人类大脑中语言神经递质的连续特性，我们将稍后在本章的1.6小节讨论NLP深度学习的未来挑战时再来讨论它。一个相关的类比是自然语言的符号是如何在几个连续值模态，如：手势（如手语）、手写（作为图像），当然还有语音中被编码的。一方面，作为符号的单词被用作“能指”[1]，指在现实世界中概念或事物作为“所指”的对象，必然是范畴[2]实体。另一方面，编码文字符号的连续模态构成由人类感知系统感知并传送到大脑的外部信号，而大脑又以连续的方式运作。尽管理论上有很大的兴趣，但将语言的符号性质与其连续渲染和编码进行对比的话题还是超出了本书的范围。

在接下来的几节中，我们将从历史的角度概述和讨论一般性方法的发展，这些方法用于研究NLP作为一个丰富的跨学科领域。如同会话系统、语音识别和人工智能等几个密切相关的子领域和父领域一样，NLP的发展可以用三个主要浪潮（邓2017；Pereira 2017）来描述，每个浪潮在下面的章节中单独进行阐述。

1.2 第一波浪潮：理性主义

NLP研究始于20世纪50年代，其第一次浪潮持续了很长时间。1950年，艾伦·图灵提出图灵测试来评估计算机显示与人类无法区分的智能行为的能力(图灵1950)。图灵测试基于人和机器之间进行自然地对话，设计的目的是可以产生真人一般的回答。1954年，Georgetown-IBM实验展示了第一个能够将60多个俄语句子翻译成英语的机器翻译系统。这些方法基于人类大脑中的语言知识，通过类属继承而预先确定的信念，在二十世纪六十年代到八十年代后期的NLP研究中占主导地位，这些方法被称为理性主义（Church2007）。自然语言处理中理性主义方法的主导地位主要归因于乔姆斯基对先天语言结构[3]的论据的广泛接受和对N-gram的批判（Chromsky 1957）。假设语言的关键部分在出生时就作为人类基因遗传的一部分而固定在大脑中，理性主义方法试图设计手工制作的规则，以将知识和推理机制结合到智能NLP系统中。直到1980年，大部分尤其成功的NLP系统，比如用于模拟罗杰里亚心理治疗师的ELIZA以及用于将实际信息结构化为概念本体的MARGIE，都是基于复杂的手写规则集。这一时期与人工智能的早期发展大致一致，人工智能的特点是专家知识工程，领域专家根据他们所拥有的（非常狭窄）应用领域的知识，来设计计算机程序(Nilsson 1982; Winston 1993)。专家们基于对这些知识的小心翼翼的表示和工程设计，使用符号逻辑规则设计了这些程序。这些基于知识的人工智能系统往往通过检查“头部”或最重要的参数，并针对每种具体情况采取适当行动，从而有效地解决窄域问题。这些“头部”参数由人类专家预先识别，使得“尾部”参数和事例不受影响。但由于他们缺乏学习能力，他们很难将解决方案推广到新的情况和领域。此期间的典型方法就是专家系统，该系统通过模仿人类专家的决策能力来做决策。这样的系统基于知识推理来设计以解决复杂的问题(Nilsson 1982)，第一个专家系统诞生于20世纪70年代，然后在20世纪80年代发展起来，使用的主要“算法”是以“if-then-else”形式出现的推理规则(Jackson 1998)。这些第一代人工智能系统的主要优点是它们在执行逻辑推理方面的透明性和可解释性（有限）。像ELIZA和MARGIE等NLP系统一样，早期的通用专家系统使用手工制作的专业知识，这种知识在狭义的问题中通常有效，尽管推理往往不能处理实际应用中普遍存在的不确定性。

在对话系统和口语理解的具体NLP应用领域，将在第二章中详细描述。本书的第二和第三章中，这种理性主义方法通过普遍使用符号规则和模板来表示(Seneff et al. 1991)，这些设计以语法和本体结构为中心，这些结构虽然易于解释并易于调试和更新，但在实际部署中遇到了严重的困难，当这样的系统工作时，它们通常能得到非常不错的结果，但不幸的是，这种情况并不经常发生，并且有效域必然是有限的。同样的，另一个长期存在的NLP和人工智能挑战——语音识别研究和系统设计，在这个理性主义时代，很大程度上也是基于专家知识工程的范式 (Church and Mercer 1993)。在20世纪70年代到80年代早期这段时间，针对语音识别的专家系统方法还是十分流行的(Reddy 1976; Zue 1985)。然而，由于缺乏从数据中学习和处理推理中不确定性的能力，研究者们已经非常清楚地认识到了这一点，接下来将介绍第二波语音识别、NLP和人工智能。

1.3 第二波浪潮：经验主义

第二波NLP的特点是利用语料库数据和（浅）机器学习（统计或其他）来利用这些数据（Manning and Schtze 1999）。随着许多自然语言的理论体系不被人们所重视或者直接抛弃，取而代之的是以数据驱动的方法。在这个时代发展的主要方法称为经验或实用方法(Church and Mercer 1993；Church 2014)。随着机器可读数据可用性的增加和计算能力的稳步增加，经验方法自1990年左右开始主导NLP。一个主要的自然语言处理会议甚至被命名为“自然语言处理中的经验方法”来最直接地反映那个时代自然语言处理研究者对经验方法的强烈正面情绪。一个主要的自然语言处理会议甚至被命名为“自然语言处理中的经验方法”来最直接地反映那个时代自然语言处理研究者对经验方法的强烈正面情绪。

与理性主义方法不同，经验主义方法假设人的大脑只从联想、模式识别和归纳的一般操作开始，需要丰富的感官输入才能使大脑学习自然语言的详细结构。经验主义于1920-1960年间在语言学中盛行，自1990年以来又经历复兴。早期的经验主义方法专注于开发像隐马尔科夫(HMM)(Baum and Petrie 1966)、IBM翻译模型(Brown et al. 1993)、头驱动解析模型(Col