一、什么是NLP
NLP是一种让计算机理解、解释和生成人类语言的技术。
核心是通过计算机程序来模拟人类对语言的认知和使用过程。
语言处理任务包括中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译、自动问答等。
当前的挑战包括处理歧义性、理解抽象概念、处理隐喻和讽刺等。
二、NLP发展历程
发展历程主要分为三个阶段。
1.早期探索(1940-1960)
早期探索起始于二战后,1950,艾伦图灵提出了图灵测试。给出了对于智能行为的评测标准。
2.符号主义与统计方法(1970-1990)
70年代以后NLP领域开始了对于逻辑基础范式和自然语言理解的探索。这一时期的研究主要分为符号主义(或规则基础)和统计方法。80年代之后,统计模型开始取代“手写”规则。
3.机器学习与深度学习(2000年至今)
2000年之后,RNN、LSTM和注意力机制的应用取得了令人瞩目的成果。13年之后,Word2Vec开创了词向量表示的新时代;18年,BERT的提出开启了预训练模型的浪潮。近年来,基于Transformer的模型成为主流。
三、NLP任务
1.中文分词
处理文本时将连续的中文文本切分成有意义的词汇序列。
2.子词切分
旨在将词汇进一步分解为更小的单位,即子词,当遇见罕见词或未见过的新词时可以通过已知的子词单位来理解或生成词汇。
3.词性标注
目标是基于预先定义的词性标签集为文本中的每个单词分配一个词性标签。通过词性标签可以更好地理解文本含义。词性标注通常依赖于机器学习模型,隐马尔可夫模型、条件随机场或者基于深度学习地RNN和LSTM。
4.文本分类
主要将给定地文本自动分配到一个或多个预定义地类别中。关键在于选择合适地特征表示和分类算法,以及拥有高质量地训练数据。目前使用神经网络进行文本分类已经是一种趋势。
5.实体识别
旨在自动识别文本中具有特定意义的实体,并将它们分类为预定义的类别。
6.关系抽取
目标是从文本中识别实体之间的语义关系。实体识别和关系抽取都有利于从文本提取有用信息为知识图谱构建、问答系统等任务提供支持。
7.文本摘要
目的是生成一段简洁准确的摘要,来概括原文的主要内容。根据生成方式可以分为,抽取式摘要和生成式摘要。
抽取式摘要:直接从原文选取关键句子或短语,优点是准确性高,但可能不够流畅。
生成式摘要:不仅选取文本片段,还要重新组织和改写,并生成新内容。如基于注意力机制的序列到序列模型(Seq2Seq)。
8.机器翻译
目的是将一种自然语言自动翻译成另一种自然语言的过程。为了提高质量,提出了如基于神经网络的Seq2Seq模型、Transformer模型等。
9.自动问答
旨在使计算机能够理解自然语言提出的问题,并根据给定数据源自动提供准确的答案。大致分为三类:检索式问答、知识库问答、社区问答。
四、文本表示的发展历程
目的是将人类语言的自然形式转化为计算机可以处理的形式,即文本数据数字化。
1.词向量
向量空间模型(VSM)是NLP领域中的基础且强大的文本表示方法。通过将文本转换为高维空间中的向量来实现文本的数学化表示。向量可以在文本相似度计算、文本分类、信息检索等任务使用。但还存在数据稀疏性和维数灾难、忽略文本结构信息、特征项选择和权重计算方法不足等问题。
目前的研究主要集中在改进特征表示方法、改进和优化特征项权重的计算方法。
2.语言模型
N-gram模型是NLP领域中广泛应用的一种基于统计的语言模型。核心思想是基于马尔科夫假设。优点是实现简单、容易理解。但当N较大时会出现数据稀疏性问题,进而导致模型泛化能力下降。
3.Word2Vec
Word2Vec是一种流行的词嵌入技术,这是一种基于神经网络NNLM的语言模型,旨在通过学习词与词之间的上下文关系来生成词的密集向量表示。核心思想是利用词在文本中的上下文信息来捕捉词之间的语义关系,从而使得语义相似或相关的词在向量空间中距离较近。
主要有两种架构:连续词袋模型CBOW和Skip-Gram模型。
Word2Vec有助于减少计算复杂度和存储需求,但是无法捕捉到长距离的依赖关系,在一些复杂的语义任务上表现不佳。
4.ELMo
ELMo实现了一词多义、静态词向量到动态词向量的跨越式转变。首次将预训练引入到词向量生成中,使用了双向LSTM。
ELMo采用两阶段过程,一阶段利用语言模型进行预训练,二阶段是在特定任务从预训练提取新特征。
主要优势在于捕捉词汇多义性和上下文信息,但也存在一些问题,如模型复杂度高、训练时间长、计算资源消耗大等。

被折叠的 条评论
为什么被折叠?



