NLP-从语言模型到朴素贝叶斯

本文探讨了朴素贝叶斯算法在垃圾邮件识别中的应用,详细介绍了贝叶斯公式及其条件独立假设,如何通过计算后验概率判断邮件是否为垃圾邮件。文章还讨论了多项式模型、伯努利模型以及混合模型在识别过程中的不同作用,并提出了提高识别效率和准确性的多种技巧。

1.贝叶斯--有监督学习:

          p(Y|X)=p(X|Y)P(Y)/p(X)

      Y==>label,X==>attribute,p(Y|X)后验概率,p(X)先验概率

    贝叶斯公式+条件独立假设 = 朴素贝叶斯

2.垃圾邮件识别--使用朴素贝叶斯

          p(‘垃圾文件’|‘具有某特征’)>1/2

3.分词

 4.多项式模型

考虑重复词语,某概率p的n次方

5.伯努利模型

将重复词视为只出现一次

 6.混合模型

统计句子概率时,不考虑重复词语的次数,统计词语时考虑统计重复次数

7.去除停用词和选择关键词(人工指定)

8.平滑技术:给未出现的词语一个估计得概率,从而相应的调低了其他出现过的词语的概率

当p=0时,赋值为一个很小的数,即拉普拉斯平滑

9.很少用匹配关键字的方法,原因是其存在缺点:准确率低,词语的不断变化

10.提高速度的tricks:

  trick1:取对数(将乘法转换为加法)提高速度,也可以构建hash表

  trick2:转换为权重 log(C/C非)>0即属于C 

  trick3:选取top-k关键词(适合篇幅变动不大的邮件)

  trick4:分割样本

  trick5:位置权重:根据词语出现位置,对其权重诚意一个放大系数,提高识别准确度

  trick6:蜜罐

11.处理多分类问题

   似然函数:p(X|Yi)

12.先验概率

最大似然法

13.如何选择依赖词的个数

    能用bigram解决的绝不用trigram,n>=4的情况比较少

    更大的n:对下一个词出现的约束信息更多,具有更大的辨别力

    更小的n:在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性、实用性

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值