我以为的NLP

作为一个小白,在接触NLP(Nature Language Process,自然语言处理)之前,完全不清楚这个领域究竟是干什么的。首先,Nature我懂,Language我也懂,但是Nature Language是什么就不懂了。那么了解这个领域的首要任务就变成了搞清楚Nature Language到底指什么。

“自然”嘛,那就是自然进化形成的,不能是人造的,自然进化形成的语言那就是人类的语言呗,毕竟是伴随着人类的进化过程不断进化,慢慢形成了今天的语言体系。要处理这些数据,而且还形成的一个研究领域,不得不感慨自然语言中包含了多少有用信息。

知道了要处理的是什么,接下来就是怎么处理。自然语言不像报表类的数据,统计、计算、出结果、看规律,一套流程,行云流水。那么人类的语言究竟怎么才能被计算机理解呢?从中又能挖掘出哪些有用的信息?NLP要解决的就是这些问题。简单来说,NLP就是研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯,这么看来,似乎NLP让机器理解人类又近了一步。

NLP的四大任务

NLP作为一个专门的研究领域,那么它自然已经形成了一套完整的系统。NLP要完成的任务基本上可以分为四大类:

NLP任务的输入往往是一句话或者一篇文章,它们具有以下特点:

输入是个一维线性序列;

输入是不定长的,这点其实对于模型处理起来也会增加一些小麻烦,有时候会采用补齐和切断的方式让输入定长;

单词或者子句的相对位置关系很重要,两个单词位置互换可能导致完全不同的意思。

序列标注任务通常是句子级的任务。序列标注是NLP领域中最常见的任务,绝大多数NLP问题都可以转化为序列标注问题。它要做的就是给语料标注出对应的标签。

一、分词

其中分词任务是在处理中文数据时经常要用到的一个处理过程,因为中文和英文的一个重要区别在于,英文的单词是用空格分隔的,但是中文的每个词都是连在一起的,为了获取每个词的信息,就需要对中文数据进行分词,像英文那样把每个词用空格分隔开。

比如拿到一句话:“今天的天气真不错”,序列标注的任务就是给每个汉字打上一个标签,对于分词任务来说,可以定义标签集合为(jieba分词中的标签集合也是这样的):

Labels={B, M, E, S}

其中B表示一个词的开始字符,M表示一个词的中间字符,E代表一个词的结束字符,S代表单字组成的词。
转载

有了这四个标签就可以对中文进行分词了。中文分词也就转换为对汉字的序列标注问题,假设已经训练好了序列标注模型,那么分别给每个汉字打上标签集合中的某个标签就可以了。但是这种形式不方便人来查看,所以可以增加一个后处理步骤,把B和E标签之间的词拼在一起,这样就分出了一个单词,而打上S标签的汉字可以看做是一个单字词。

Labels = {BA, MA, EA, BO, MO, EO, BP, MP, EP, O}

其中,BA表示地址的首字,MA表示地址的中间字,EA表示地址的尾字;BO表示机构名的首字,MO表示机构名称的中间字,EO表示机构名的尾字;BP表示人名首字,MP表示人名中间字,EP表示人名尾字,而O代表其他字。
在这里插入图片描述

二、分类任务:文本分类、情感计算

分类任务是NLP领域最经典的使用场景之一,分类就是给每个句子一个标签,这个标签一般情况下也是属于定义的标签集合的,情感计算也是一种文本分类,它对应的标签集合是情感,如{积极情感、消极情感、中立情感}或{喜、怒、爱、哀、惧、惊}等。

完成分类任务的方法包括传统的机器学习方法,比如:TF-IDF文本分类。

还有基于深度学习的方法,例如:Facebook开源的FastText文本分类,Text-CNN 文本分类,Text-CNN 文本分类,还有经典的LSTM-CRF方法等。

使用深度学习的方法进行分类时,首先都需要用标注好的数据训练一个分类器。
在这里插入图片描述
然后给一个新的句子序列,输入到训练好的分类器中,就会输出这个句子对应的类别,当然分类的结果不一定正确,效果的好坏要看训练的分类器的准确率,而且不同的分类器适用的语料不同,分类器的选择和训练也是大有文章。
在这里插入图片描述

三、句子关系判断:QA(问答系统)、自然语言推理、信息检索

句子关系判断任务是给定两个或多个句子,使用模型判断两个句子之间是否存在某种关系,比如问答系统就是判断两句话是不是问题和答案的关系。

四、生成式任务:机器翻译、文本摘要生成

机器翻译就是我们熟悉的翻译软件中的那个翻译,它的背后就是由NLP支撑的,输入一个句子或段落,使用训练好的模型翻译成另一种语言。文本摘要生成是指给出一段话,由模型自动生成这段话的摘要。之所以称它们为生成式任务,是因为模型输出的结果是重新生成的,而不是在原数据的基础上进行操作。

上面提到的NLP的很多任务都只是复杂任务中的一个过程,并不一定是最终目的。

本篇内容转载于:我以为的NLP竟不是我以为的那样 - 搜狐网
https://m.sohu.com/a/401857060_505795?trans=010004_pcwzy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值