因项目需要,重新捡起来NLP进行学习。感觉NLP经过长时间发展在各个领域出现了大量效果好的模型。为了梳理一下思路,特地写博客记录,以便以后复习。
词袋模型
one-hot
中文是独热编码,至于为啥叫这个我也不太懂。不过表现形式还是很简单的。
在早早年,用1,2,3表示不同的单词有个问题,比如说1表示苹果,2表示香蕉,3表示桃,那么我们想表示同时拥有苹果和香蕉使用1+2=3的算法显然是错误的,这代表单纯用索引来表示一个值是很难计算的。
如果我们使用One-hot进行编码的话,苹果是[1,0,0],香蕉是[0,1,0],桃是[0,0,1]。那么同时拥有苹果和香蕉就可以写为[1,1,0]。这样就可以进行计算了。
其实这也是将自然语言图片化
那么再举个栗子:
我们有一个字典表示每个词的索引,比如说:
dic=[‘我‘:'1','苹果','2','想吃':'3']
“我想吃苹果” 这句话中每个词都可以表示成:
我:[1,0,0]
想吃:[0,0,1]
苹果:[0,1,0]
这样就把每个词变成了电脑能看懂的东西,同时也将离散的单词连续化了。这其实是映射到了欧式空间,因为欧式空间有很多计算词频,计算相似度的常用方法。
说个题外话,上面对词典的记录实际上是key:value的形式,按照出现的先后次序进行排列。但是这样建立的词典似乎没有很多的意义。因此还有一种建立词典的方法:词频
我们对一篇文章建立词典的时候先统计每个词在文章中出现的次数,根据出现的次数从低到高进行排列。如果维度过高也可以对低频词进行删除,对于词典中没有的词就可以使用全0表示。
注意:全0的向量属于保留项,用来保留null或者unknown
虽然独热编码简单,好写又好看,但是当词一多就会产生维度灾难,中文几千个常用词每个词都一个编码的话机器就炸了。而且在计算词频的时候诸如“的”,“啊”的词会大量出现,产生很强的噪音。为了解决这些问题,很多科学家又提出了不同的想法。
TF-IDF
TF-