《统计学习方法》 第四章 读书笔记

第四章 朴素贝叶斯法

概述

  基本思想:对于给定的数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
  特点:实现简单;学习和预测的效率都很高;很常用。

4.1 朴素贝叶斯法的学习与分类

给定数据集

T={(x1,y1),(x2,y2),,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) }

学习目标:学习联合概率分布。
几个概念:
  1.先验概率分布:
  
P(Y=ck),k=1,2,,K P ( Y = c k ) , k = 1 , 2 , ⋯ , K

  2.后验概率
  学习到的联合概率分布。

4.2 朴素贝叶斯法的参数估计

极大似然估计

先验概率 P(Y=ck) P ( Y = c k ) 的极大似然估计:

P(Y=ck)=i=1NI(yi=ck)N,k=1,2,,K P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , ⋯ , K

条件概率 P(X(j)=x(j)|Y=ck) P ( X ( j ) = x ( j ) | Y = c k ) 的极大似然估计是:
P(X(j)=x(j)|Y=ck)=i=1NI(x(j)i=ajl,yi=ck)i=1NI(yi=ck) P ( X ( j ) = x ( j ) | Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k )

j=1,2,…,n;l=1,2,…,S;k=1,2,…,K
式中, x(j)i x i ( j ) 是第i个样本的第j个特征, ajl a j l 是第j个特征可能取的第l个值;I为指示函数

学习与分类算法

算法4.1(朴素贝叶斯算法)

(1)计算先验概率及条件概率
(2)对于给定的实例 x=(x(1),x(2),,x(n))T x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) ) T ,计算

P(Y=ck)j=1nP(X(j)=x(j)|Y=ck),k=1,2,,K P ( Y = c k ) ∏ j = 1 n P ( X ( j ) = x ( j ) | Y = c k ) , k = 1 , 2 , ⋯ , K

(3)确定实例x的类
y=argmaxckP(Y=ck)j=1nP(X(j)=x(j)|Y=ck) y = arg ⁡ max c k ⁡ P ( Y = c k ) ∏ j = 1 n P ( X ( j ) = x ( j ) | Y = c k )

贝叶斯估计

条件概率的贝叶斯估计:

P(X(j)=x(j)|Y=ck)=i=1NI(x(j)i=ajl,yi=ck)+λi=1NI(yi=ck)+Sjλ P ( X ( j ) = x ( j ) | Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ

先验概率的贝叶斯估计为:
P(Y=ck)=i=1NI(yi=ck)+λN+Kλ P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ

式中, λ0 λ ≥ 0 ;当 λ=0 λ = 0 时就是极大似然估计,常取 λ=1 λ = 1 ,这是称为拉普拉斯平滑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值