1.朴素贝叶斯分类算法的基本内容:
- 概率基础
- 朴素贝叶斯分类器
朴素贝叶斯的核心思想是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
2 概率基础
2.1 随机变量的先验、条件、联合概率
- 先验概率:事件发生前的预判概率。P(X)
- 条件概率:一个事件发生后另一个事件发生的概率。P(X1lX2), P(X2lX1)
- 联合概率:是指两个事件同时发生的概率。X=(X1,X2), P(X)= P(X1,X2)
- 相关:P(X1,X2)= P(X2lX1)P(X1)= P(X1IX2)P(X2)
- 独立:P(X1,X2)= P(X1)P(X2)
2.2 朴素贝叶斯的公式及其作用
- 贝叶斯公式打通从P(A|B)获得P(B|A)的通路。
2.3 条件概率和联合概率的计算
- 将一枚硬币抛掷,观察其出现正反面的情况.设事件A为“两次掷出同一面",事件B为“至少有一次为正面".现在来求已知事件B已经发生的条件下事件A发生的概率。
3 朴素贝叶斯分类器
3.1 贝叶斯公式
- 一所学校里面有60%的男生,40%的女生。男生总是穿裤子,女生则一半穿裤子一半穿裙子。假设你走在校园中,前面走着一个穿裤子的学生,
- 问题1:你能够推断出他(她)是女生的概率是多大吗?
- 分析:分析:现在假设学校里面人的总数为N。
- (1)男生中穿裤子的人数N*P(Boy)P(Pants| Boy)=N60%*100%;
- (2)女生中穿裤子的人数N*P(Girl)P(Pants| Girl) =N40%*50%;
- (3)穿裤子的总人数为:NP(Boy)P(Pants|Boy)+ NP(Girl) P(Pants|Girl)
3.2 推测穿裤子的学生是女生的概率
3.3 推测这个穿裤子的学生是男生还是女生
朴素贝叶斯的特征假设
- 计算后验概率需用朴素贝叶斯假设:特征间相互独立。
3.3 朴素贝叶斯的应用场景
- 垃圾文本过滤:垃圾邮件识别、社区评论信息检测.
- 情感判别:微博的褒贬情绪 、电商评论信息的情感判断.
- 文本分类:新闻文档的自动识别。