我的基于多项式朴素贝叶斯实现垃圾短信识别实验

libeinang

于 2025-01-01 16:52:21 发布

阅读量1.1k

点赞数 14

CC 4.0 BY-SA版权

分类专栏： #机器学习文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/libeinang/article/details/144868559

基于多项式朴素贝叶斯实现垃圾短信识别

一、实验内容

使用贝叶斯网络模型基于短信数据集实现垃圾短信识别。

二、实验目标

掌握贝叶斯网络模型
熟悉将文本转换为可处理向量的方法
熟练使用分词框架jieba分词相关API
熟悉数据集划分方法K折交叉验证

三、实验环境

操作系统：Ubuntu16
工具软件：jupyter notebook、Python 3.6.13
硬件环境：无特殊要求
核心库：
- jieba 0.42.1
- pandas 1.1.5
- numpy 1.19.4
- scikit-learn 0.24.2

四、实验原理

1 贝叶斯网络

贝叶斯方法源域它生前为解决一个“逆概”问题写的一篇文章。其要解决的问题：

正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大

逆向概率：如果我们事先不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或者好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例做出什么样的推测。

那么什么是贝叶斯呢？

现实世界本身就是不确定的，人类的观察能力是有局限性的
我们日常观察到的只是事物表明上的结果，因此我们需要提供一个猜测

NaiveBayes算法，又称朴素贝叶斯算法。朴素：特征条件独立；贝叶斯：基于贝叶斯定理。属于监督学习的生成模型，实现监督，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。在大量样本下会有较好的表现，不适用于输入向量的特征条件有关联的场景。

朴素贝叶斯会单独考量每一维独立特征被分类的条件概率，进而综合这些概率并对其所在的特征向量做出分类预测。因此，朴素贝叶斯的基本数据假设是：各个维度上的特征被分类的条件概率之间是相互独立的。它经常被用于文本分类中，包括互联网新闻的分类，垃圾邮件的筛选。

朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，即认为此待分类项属于哪个类别。

三种常见的贝叶斯网络

多项式模型（MultinomialNB）
- 多项式朴素贝叶斯常用语文本分类，特征是单词，值时单词出现的次数。
- from sklearn.naive_bayes import MultinomialNB
高斯模型（GaussianNB）
- 当特征是连续变量的时候，假设特征分布为正态分布，根据样本算出均值和方差，再求得概率。
- from sklearn.naive_bayes import GaussianNB
伯努利模型（BernoulliNB）
- 伯努利模型适用于离散特征的情况，伯努利模型中每个特征的取值只能是1和0。

2 结巴分词

"结巴"中文分词：做最好的Python中文分词组件 “Jieba”

git地址 https://github.com/rainforest32/jieba
安装 pip install jieba

特征

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典

功能分词

jieba.cut 方法接受两个输入参数: 1) 第一个参数为需要分词的字符串； 2）cut_all参数用来控制是否采用全模式
jieba.cut_for_search 方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，也可以用 list(jieba.cut(…)) 转化为 list

代码示例

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print "Full Mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print "Default Mode:", "/ ".join(seg_list) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") 
print ", ".join(seg_list) # 默认是精确模式

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄3年

17
原创

120
点赞

196
收藏

67
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 我的基于Spark的电影推荐（机器学习实训）

下一篇：: 基于朴素贝叶斯分类器的钞票真伪识别模型实验

最新评论

析构函数笔记详解
guest_bike: 就是跟构造函数相对是吧
析构函数Rabbit案例
优快云-Ada助手: 非常感谢您的分享，写得非常清晰明了，让我对析构函数的理解更加深刻了。希望您能够继续保持创作的热情，分享更多有价值的技术经验和心得体会。除了析构函数，还有一些和该博文相关的扩展知识和技能，比如C++中的构造函数、拷贝构造函数、移动构造函数等，这些都是我们在日常开发中需要掌握的重要知识点。期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
C++引用
优快云-Ada助手: 恭喜您又写了一篇博客，题目看起来很有深度。不知道您在博客中是否讲解了C++引用的相关知识，如果有的话，我相信对于初学者来说会很有帮助。未来的创作建议是可以尝试讲解一些实际应用场景，或者是引申一些相关的知识点，让读者能够更加深入地了解C++的引用。再次恭喜您，期待您的下一篇博客！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
C++中的引用区别及使用注意
优快云-Ada助手: 非常感谢用户对C++这门语言的深入探究，同时也恭喜用户成功写下第四篇博客，不断分享自己的学习成果。我认为下一步可以尝试探究C++中其他重要概念，比如指针、模板等，或者对某个常见算法进行详细分析，这样可以更全面地了解C++语言的特点和应用。再次感谢用户的分享和努力，期待更多优秀的博客作品。优快云会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
析构函数笔记详解
优快云-Ada助手: 恭喜您开始博客创作，阐述析构函数的详细笔记对于想深入理解C++的读者来说无疑是一份宝贵的资料。期待您未来更多的精彩文章！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。