学习记录 nlp学习01

https://www.cnblogs.com/zackstang/p/15182420.html

nlp学习,计算机视觉,语音识别,自然语言处理,推荐引擎

人工神经网络,人工神经元组成,人工神经元也被称为节点,人工神经网络是程序或者算法。

自动摘要,机器翻译,命名体识别(NER)、关系提取、情感分析、语音识别、主题分割

深度学习模型的应用

NLP流程:
1、数据收集 2、数据标注 3、文本标准化 4、文本向量化/特征化 5、建模

前期的数据收集,并根据任务类型对数据做标注,比如正确性,关联性,好坏性
文本化就是对文本进行预处理,为了提取文本中的隐含信息,最后在通过机器学习建模,达到目标。
这个过程中就是文本预处理和机器学习需要迭代,更加精准。

文本标准化就是文本预处理,文本其实不能直接使用,要先进行清洗和标准化,为了让目标和常规数据预处理的目标一致,方便模型训练。
有四步:1、大小写标准化 2、分词也停止词 3、词性标注 4、词干提取
大小写字符变化;分词是讲文本转换为单词列表,例如【like】分词为【l,i,k,e】,中文里分子最小单词可以是词语;停止词是讲文本中的标点或者停顿词或者特殊符号移除,方便模型识别;词性标注就是语法上的动词名词形容词副词等标注;词干提取就是提取词根,比如【play】有多个形态,进行时过去时,我们只提取词根【play】

文本向量化/特征化就是犟单词转为词向量的过程,也叫词嵌入。有多种方法:

1、基于单词计数的特征
先将语料库内的文本分词得到单词,然后对句子构建向量的时候,根据单词数构建向量。
举例:【我爱我的家】分词【我,爱,我,的,家】计数【1,0,0,0】
这样没办法确定语义,但是可以对比相似度,称为不包含上下文的向量化,可以用余弦相似度或者距离来比较两个文档的相似度。

2、基于统计学的特征
文本向量化的时候,用词频-逆文档频率技术,举例解释:通过单词检索文档,若是用苹果,醋,酱油这类常出现的高频词来检索,那就会有大量匹配的文档,但是使用不常见的词,黑醋,黑莓,黑蒜这种低频词就能更快缩小范围,这个技术就是对于低频的词我们给与更高的分数,高配的词给与更低的分数,这就是IDF思想。

3、词向量
前两个方法只是解决了用一个向量代表一个文档,无法表达语义,词向量也叫词嵌入,是将单词映射到一个高维空间中,使得意义相近的词在空间内距离相近,不同的距离相远。
3.1 Word2Vec
这个方法是谷歌工程师提出的,本身是神经网络处理任务的时候产出的一个副产品,举例解释:搭建一个神经网络的时候,每次取一个批次的5个词,中间的词做target周围的四个做输入,来训练。举例解释:【要把菜洗了】拆【要,把,菜,洗,了】,【菜】是target,放进网络里面,在网络词库里面很多次,通过【菜】来检索,之前远和近的那些词就会被捕捉到,这样可以预测它周围的词【洗了】等。
SGNS的方法可以降低训练超大型语料库的时间,第一层的输入层的权重矩阵就是词向量矩阵。
但是它的局限就是没有全局的统计信息,因为在训练的时候最长是以一个窗口为单位,只能看到窗口内的上下文信息。
3.2 GloVe
跟Word2Vec差不多,都是一个词来生成周围的词。但是加入了全局的文本统计信息,也就是构建语料库的共现矩阵。共现矩阵就是2个词在窗口中一同出现的次数,用矩阵来表示。有了这个改进之后,还有个问题检索如何将全局信息应用到词向量生成中。
这个知识点还是没搞明白,再学一下。
共现矩阵的概率比值,可以用来区分词。这个的过程就是确保这种关系被用于生成词嵌入,讲全局信息引入到了词向量的生成过程中。
3.3 BERT
前两个都有个特点就是跟上下文无关的词嵌入,所以没办法解决一个单词在不同上下文中代表不同的含义的问题。比如bank,有河边的意思也有银行的意思。BERT就可以区别这些,提升了baseline。
还有就是GloVe的词库需求量很大,因为没有进行全局统计,会出现重复的,但是BERT用的是WordPiece分词法,基于BPE属于subword的一种。
WordPiece分词,subword分词法就是将词进一步拆分,举例解释:【动】细化拆分成【云】【力】,那么【坛】【运】都属于【云】字边的,【劫】【加】都属于【力】字边的,这样进行细分,减少了词库的横线容量,减少了大小。
“Don't be lured”使用上会分词为【CLS】【Don】【’】【t】【be】【lure】【##d】【SEP】【PAD】
【CLS】【SEP】【PAD】是字段保留词,分类任务、间隔、序列补全。根据subword分词法,【lured】分成了词根【lure】和过去时【##d】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值