《统计学习方法》第四章读书笔记

最新推荐文章于 2021-01-09 18:25:36 发布

子夕听雨

最新推荐文章于 2021-01-09 18:25:36 发布

阅读量437

点赞数

CC 4.0 BY-SA版权

分类专栏：《统计学习方法》李航读书笔记文章标签：机器学习统计

本文链接：https://blog.youkuaiyun.com/lbllol365/article/details/79544558

《统计学习方法》李航读书笔记专栏收录该内容

5 篇文章

订阅专栏

本文介绍了朴素贝叶斯法的基本思想与应用，包括其学习输入/输出的联合概率分布的过程，以及如何基于此模型进行预测。文中详细阐述了先验概率与后验概率的概念，并给出了参数估计的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第四章朴素贝叶斯法

概述

　　基本思想：对于给定的数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布，然后基于此模型，对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
　　特点：实现简单；学习和预测的效率都很高；很常用。

4.1 朴素贝叶斯法的学习与分类

给定数据集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

$T = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}$
学习目标：学习联合概率分布。
几个概念：
　　1.先验概率分布：
　　

P (Y = c k), k = 1, 2, \dots, K

${\rm{P}}(Y = {c_k}),k = 1,2, \cdots ,K$
　　2.后验概率
　　学习到的联合概率分布。

4.2 朴素贝叶斯法的参数估计

极大似然估计

先验概率 $P(Y = {c_k})$ 的极大似然估计：

P (Y = c k) = \sum i = 1 N I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}{N},k = 1,2, \cdots ,K$
条件概率

P(X(j)=x(j)|Y=ck)P(X(j)=x(j)|Y=ck) $P({X^{(j)}} = {x^{(j)}}|Y = {c_k})$ 的极大似然估计是：

P (X (j) = x (j) | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) \sum i = 1 N I ( y i = c k )

$P({X^{(j)}} = {x^{(j)}}|Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I(x_i^{(j)} = {a_{jl}},{y_i} = {c_k})} }}{{\sum\limits_{i = 1}^N {I({y_i} = {c_k})} }}$
j=1,2,…,n;l=1,2,…,S;k=1,2,…,K
式中，

x(j)ixi(j) $x_i^{(j)}$ 是第i个样本的第j个特征，

ajlajl $a_{jl}$ 是第j个特征可能取的第l个值；I为指示函数

学习与分类算法

算法4.1（朴素贝叶斯算法）

（1）计算先验概率及条件概率
（2）对于给定的实例 $x = {({x^{(1)}},{x^{(2)}}, \cdots ,{x^{(n)}})^T}$ ，计算

P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k), k = 1, 2, \dots, K

$P(Y = {c_k})\prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k}),k = 1,2, \cdots ,K}$
（3）确定实例x的类

y = arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y = \arg \mathop {\max }\limits_{{c_k}} P(Y = {c_k})\prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})}$

贝叶斯估计

条件概率的贝叶斯估计：

P (X (j) = x (j) | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) + λ \sum i = 1 N I ( y i = c k ) + S j λ

$P({X^{(j)}} = {x^{(j)}}|Y = {c_k}) = \frac{{\sum\limits_{i = 1}^N {I(x_i^{(j)} = {a_{jl}},{y_i} = {c_k}) + \lambda } }}{{\sum\limits_{i = 1}^N {I({y_i} = {c_k}) + {S_j}\lambda } }}$
先验概率的贝叶斯估计为：