
NLP基础知识
文章平均质量分 69
HawardScut
工作啦,有时比较忙没及时回复,望见谅。
展开
-
(三)朴素贝叶斯运用——文本分类
1、贝叶斯理论当我们有样本(包含特征和类别)的时候,我们非常容易通过p(x)p(y|x)=p(y)p(x|y)p(x)p(y|x)=p(y)p(x|y)p(x)p(y|x) = p(y)p(x|y)统计得到 p(特征|类别) .即p(特征)p(类别|特征)=p(类别)p(特征|类别)p(特征)p(类别|特征)=p(类别)p(特征|类别)p(特征)p(类别|特征) = p(类别)p(特征|类别...原创 2018-09-15 19:29:44 · 27460 阅读 · 10 评论 -
(四)N-gram语言模型与马尔科夫假设
1、从独立性假设到联合概率链朴素贝叶斯中使用的独立性假设为 P(x1,x2,x3,...,xn)=P(x1)P(x2)P(x3)...P(xn)(1)(1)P(x1,x2,x3,...,xn)=P(x1)P(x2)P(x3)...P(xn)P(x_1,x_2,x_3,...,x_n)=P(x_1)P(x_2)P(x_3)...P(x_n) \tag{1} 去掉独立性假设,有下面这个恒等...原创 2018-09-16 23:27:43 · 8909 阅读 · 2 评论 -
(五)N-gram语言模型的数据处理
一、步骤数据集说明:一段英文 (1)分词:把原始的英文分词,只保留词之间的顺序不变,多个句子也是看出整体进行分词。 (2)统计词频:按照n元进行词频统计,比如“I love NLP I enjoy it”当n=2时候,可以划分为(【I love】,【love NLP】,【NLP I】…),分别统计【I love】,【love NLP】等出现的次数。(在朴素贝叶斯中只是统计一个词,这里是统计...原创 2018-09-17 10:05:24 · 2162 阅读 · 2 评论 -
(六) word2vec原理
Word2Vec 的有两种训练模型:CBOW (Continuous Bag-of-Words Model) 和 Skip-gram (Continuous Skip-gram Model)。1、步骤(以CBOW为例)(1)处理语料库:把语料库划分成一连串的单词,把这些一连串的单词去重,构建词汇表word_to_ix,即word_to_ix={单词1,单词2,…,单词n}(2)构建CBOW模...原创 2018-11-12 12:12:53 · 408 阅读 · 0 评论 -
(一)jieba分词
jieba分词1、全模式按照前后的顺序分词,句子有交叉import jiebaseg_list = jieba.cut("我喜欢自然语言处理", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) # 全模式Building prefix dict from the default dictionary ...Du...原创 2018-09-14 21:59:11 · 1790 阅读 · 0 评论 -
(二)贝叶斯和朴素贝叶斯
1、贝叶斯公式P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} 由P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y)推导而来,其中 P(Y) 叫做先验概率, P(Y|X)...原创 2018-09-15 14:01:26 · 651 阅读 · 0 评论