朴素贝叶斯

参考-《统计分析方法》-李航
第四章 朴素贝叶斯法
电脑可以将图像视频文字等呈现在人类面前但是它自己却没有判断力,并不能去这些信息进行分类和识别。机器学习就是为了让机器获得识别这些信息的能力。在机器学习中朴素贝叶斯是一种非常简单但是却应用十分广泛的分类方法。 朴素贝叶斯是基于贝叶斯的一种分类方法,它通过输入的训练数据集和类别标签来学习联合分布概率P(X,Y),然后利用P(X,Y)来对测试数据进行分类。

输入(特征值)X:
这里写图片描述

其中 i:1,2,……N;j:1,2,3……n; Xi (j)的特征可选值:aj1,aj2,……aj Si 。
输出(类别)Y:这里写图片描述
Y:c1,c2,……ck

训练数据:
这里写图片描述
因此得到P(X,Y)是朴素贝叶斯训练过程的目标。
2. 求联合概率分布P(X,Y)
这里写图片描述
已知贝叶斯定理:这里写图片描述

所以我们只要知道了P(Y)和P(X|Y)就能得到P(X,Y)了。
1)求P(Y).
P(Y)是先验概率,即求每一个类别的概率,用样本猜测模型,也就是用样本中ck的出现次数除以样本容量即可。
2)求P(X|Y)
P(X|Y)是条件概率 在Y情况下的X的概率,也叫后验概率。

这里写图片描述
先验概率是比较好求的,在文章最后给出的例子中我们只需要统计一下各个情况(类别)出现的次数 除以类别总数即可得到 每个类的概率分布。
问题的难点在于后验概率,后验概率分布容易出现维度灾难。什么是维度灾难呢? 学过排列组合的同学们大概会有印象,没学过的也不要紧 我尽量解释清楚一些。
维度灾难就是,当ABCD==>Y 就是如果当ABCD同时决定Y的取值,如果A有2种取值,B有5种取值,C有10种取值 ,D有20种取值。那么ABCD组合所有的情况就会有2*5*10*20=2000种可能。由此在分类中各种因素和取值很多的时候 那么决定类别的条件就会产生维度灾难,数量非常之大无法控制。
这里写图片描述

这里写图片描述
这里写图片描述
这里写图片描述
将条件独立假设公式代入到贝叶斯公式中 我们就得到了朴素贝叶斯公式。
这里写图片描述

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值