A Survey on Techniques in NLP--阅读笔记

本文是一篇关于自然语言处理技术的综述,主要探讨了语言建模、词类标注和解析这三个阶段。语言建模是统计句子概率,词性标注涉及上下文词汇分类,而解析则构建分析树理解句子结构。文中提到了n-gram模型、维特比算法在词性标注中的应用,以及词汇化的解析器如何处理语法模糊性。

论文链接

ABSTRACT

自然语言处理领域(NLP)是语言学,计算和统计学研究的交汇点。 NLP的主要目标是自动理解人类使用的半结构化语言。本研究主要应用于语义分析,摘要,文本分类等多个领域。

本文描述了自然语言处理的三个阶段,即语言建模,词类标注和解析,概述了可以使用的方法。

INTRODUCTION

自然语言处理的思想是设计和开发一个可以分析,理解和综合自然人类语言的计算机系统。自然语言属于人工智能领域,目标是理解和创造人类语言中的有意义的表达。

多年来开发的语音识别,语言翻译,信息检索,文本摘要等自然语言处理的很多应用。

NLP有几个阶段取决于应用程序,但在这里,我们将讨论限制在三个阶段,即语言建模,词类标注和解析。

OVERVIEW OF PHASES

任何NLP应用程序的初步目标是为属于该语言集的句子生成一个解析树。为了创建一个解析树,需要知道句子中所有单词所属的类,即一个单词是形容词还是动词或其他。为了正确识别特定单词所属的类别,我们依靠语言模型。如下图:
这里写图片描述

请注意,该图特定于本调查中指定的方法,即统计语言建模,POS(parts-of-speech,词类)标记和解析。像神经网络这样的某些方法可能不能确认这个时间顺序。

在NLP中多次提出自己的头脑的固有问题之一是模棱两可的问题。研究人员在处理几乎每一个阶段都必须处理模棱两可的问题。例如,在POS标签中,考虑“可以”这个词:

  • 它可以被分类为一个模态动词,因为它是一种能够做某事的能力,
  • 也可以被归类为一个名词,因为它可以是一个容器来容纳某物。

历史上,语言处理应用程序通过创建基于规则的软件来检查句子的结构,以查看它是否符合指定的结构。一旦规则变多之前的相互作用就变得复杂,对大规模数据无用。

最近的方法采用的方法利用了可用于训练语言模型的海量数据。换句话说,最近的语言处理方法利用数据驱动的方法来达到理解语言的目的。这些数据驱动的策略组成了NLP的统计革命。

Language modelling

语言建模是制作语言后期阶段使用的语言的概率模型的艺术。 这个模型在统计上是严格统计的,它忽略了句子的基本含义,并着重于发展特定语言的概率分布。

POS tagging

词性标注是词语在其上下文中分类的过程。 它使用前一节中构建的概率模型以及其他参数将单词分类到其类中。

Parsing

解析涉及到构造分析树来理解句子不同组成部分之间的关系。 这在解决歧义方面尤为重要。 解析模型使用上下文无关文法以及与每个规则相关的概率来导出句子的解析树。

METHODOLOGIES’ ANALYSIS

Language Modelling

统计语言模型就是语言中所有可能的句子 S 的概率分布,即统计语言建模只计算句子的概率分布,而不考虑句子的语义。

有许多方法可以模拟语言,如:

  • n-gram模型;
  • 决策树模型;
  • 语言激励模型;
  • 指数模型;
  • 自适应模型。

在这里介绍如何在语言建模工作中的n-gram模型。 N-gram模型是语言建模过程的主要部分,也是语音识别系统中使用最广泛的模型。

N-gram模型基于隐藏的马尔可夫链顺序。 马尔可夫链与条件概率相似,但其假设值根据马尔科夫链的顺序变化。

考虑可以取值 x1x2 x3 的随机变量 X1X2X3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值