朴素贝叶斯原理

最近在看机器学习方面的看法,写写博客增加一下自己的印象。

  1. 朴素贝叶斯原理介绍
  2. 后验概率最大化的含义
  3. 极大似然估计
  4. 贝叶斯估计

1、朴素贝叶斯原理介绍

条件独立性假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯计算起来更加的简单。但有时会牺牲一定的分类准确率。
在介绍贝叶斯之前有几个概念需要弄清楚。

  • XXX:训练数据
  • YYY:假设空间
  • yiy_iyi:假设
  • 先验概率P(yi)P(y_i)P(yi) :假设yiy_iyi先验概率(Prior Probability)(即在没有训练数据前假设yiy_iyi拥有的初始概率)
  • 条件概率P(X=xi∣yi)P(X=x_i|y_i)P(X=xiyi)似然度,在假设yiy_iyi成立的情况下观察到xix_ixi的概率
  • 后验概率P(yi∣X)P(y_i|X)P(yiX)后验概率,给定训练数据X是yiy_iyi成立的概率

贝叶斯定理P(yi∣X=xi)=P(X=xi∣yi)P(yi)P(X=xi)P(y_i|X=x_i)=\frac{P(X=x_i|y_i)P(y_i)}{P(X=x_i)}P(yiX=xi)=P(X=xi)P(X=xiyi)P(yi)

  • 贝叶斯公式比较重要的一点是,它提供了根据P(X=xi∣yi),P(yi),P(X)P(X=x_i|y_i),P(y_i),P(X)P(X=xiyi),P(yi),P(X)计算后验概率的方法。

朴素贝叶斯分类器:

y=argmaxckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)y=\mathop {argmax}_{c_k}\frac{P(Y=c_k)\prod_j{P(X^{(j)}=x^{(j)}|Y=c_k)}}{\sum_kP(Y=c_k)\prod_j{P(X^{(j)}=x^{(j)}|Y=c_k)}}y=argmaxckkP(Y=ck)jP(X(j)=x(j)Y=ck)P(Y=ck)jP(X(j)=x(j)Y=ck)

(其中因为对于所有的ckc_kck分母都相同,为了计算简单上式中省略了分母)

y=argmaxckP(Y=ck)∏P(X(j)=x(j)∣Y=ck)y=\mathop {argmax}_{c_k}P(Y=c_k)\prod{P(X^{(j)}=x^{(j)}|Y=c_k)}y=argmaxckP(Y=ck)P(X(j)=x(j)Y=ck)

2、最大后验概率的意义

在朴素贝叶斯分类算法中,将实例分到后验概率最大的类中。这等价于将期望风险最小化。

3、极大似然估计

在朴素贝叶斯的学习方法中,学习其实就是估计P(Y=ck)P(Y=c_k)P(Y=ck)P(X(j)=x(j)∣Y=ck)P(X^{(j)}=x^{(j)}|Y=c_k)P(X(j)=x(j)Y=ck)。用极大似然估计法可以估计相应的概率。先验概率P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,...,KP(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},k=1,2,...,KP(Y=ck)=Ni=1NI(yi=ck),k=1,2,...,K
假设朴素贝叶斯一条训练数据的第jjj个特征可能的取值集合为{aj1,aj2,...,ajsj}\{a_{j1},a_{j2},...,a_{js_j}\}{aj1,aj2,...,ajsj}则:

P(X(j)=ajl)∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)∑i=1NI(yi=ck)P(X^{(j)}=a_{jl})|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}P(X(j)=ajl)Y=ck)=i=1NI(yi=ck)i=1NI(xi(j)=ajl,yi=ck)

  • j=1,2,...,n(x特征数);j=1,2,...,n(x特征数);j=1,2,...,n(x);
  • l=1,2,...sj(特征可能取的值数);l=1,2,...s_j(特征可能取的值数);l=1,2,...sj;
  • k=1,2,...,K(分类种类数);k=1,2,...,K(分类种类数);k=1,2,...,K();

4、贝叶斯估计

上面介绍了极大似然估计,但极大似然估计可能会出现所要估计的概率值为0的情况。这是会影响后验概率的计算结果,使分类产生误差。避免这一情况的做法是采用贝叶斯估计,具体计算公式如下。

Pλ(X(j)=ajl)∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)+λ∑i=1NI(yi=ck)+sjλP_\lambda(X^{(j)}=a_{jl})|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+s_j\lambda}Pλ(X(j)=ajl)Y=ck)=i=1NI(yi=ck)+sjλi=1NI(xi(j)=ajl,yi=ck)+λ

  • xi(j):x^{(j)}_i:xi(j):iii个实例xix_ixi的第jjj个特征。
  • ajl:a_{jl}:ajl:jjj个特征的第lll个取值。

其中λ≥0\lambda\geq0λ0λ=0\lambda=0λ=0就是极大似然估计,当取值为1时就是拉普拉斯平滑(Laplace smoothing)

先验概率的贝叶斯估计:

Pλ(Y=ck)=∑i=1NI(yi=ck)+λN+KλP_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}Pλ(Y=ck)=N+Kλi=1NI(yi=ck)+λ

<think>好的,我现在需要解释多项式朴素贝叶斯原理和数学基础。用户已经提到了相关的引用,我需要结合这些信息来构建一个清晰的回答。 首先,用户的问题是关于多项式朴素贝叶斯的工作原理和数学基础。根据引用[1]和[2],朴素贝叶斯基于贝叶斯定理,并且假设特征之间条件独立。而多项式朴素贝叶斯是其中一种类型,适用于特定数据分布,比如文本分类中的词频统计。 接下来,我需要明确贝叶斯定理的应用。根据引用[1],贝叶斯定理是计算条件概率的公式,即P(c|x) = [P(x|c) * P(c)] / P(x)。在分类任务中,c是类别,x是特征向量。这里的核心在于计算后验概率P(c|x),然后选择概率最大的类别作为预测结果。 然后,多项式朴素贝叶斯的特殊性在于它对特征分布的假设。引用[4]提到,多项式朴素贝叶斯假设特征服从多项式分布,这通常用于处理离散型特征,如文本中的词频。这种情况下,P(x_i|c)的计算需要考虑特征出现的次数,而不仅仅是存在与否,这点和伯努利模型不同。 数学基础方面,需要详细说明多项式分布的概率公式。比如,在给定类别c的情况下,特征x_i的概率可以表示为多项式分布的形式,使用拉普拉斯平滑来避免零概率问题。引用[4]中提到,参数估计的方法不同,这里应该涉及极大似然估计或者带有平滑的极大似然估计。 同时,需要结合文本分类的例子,如引用[2]中提到的NLP应用,说明多项式朴素贝叶斯如何计算词频的条件概率。例如,每个词在文档中的出现次数作为特征,通过多项式分布建模,进而计算文档属于某类的概率。 另外,需要注意对比其他类型的朴素贝叶斯,比如高斯和伯努利,如引用[3]和[4]所述。这可以帮助用户理解多项式模型的适用场景,比如当特征是计数或频率时,多项式模型更适合。 最后,需要确保回答结构清晰,分步骤解释原理和数学公式,并给出实际应用的例子。同时,生成的相关问题要围绕原理、数学细节、应用和对比展开,帮助用户进一步学习。</think>### 多项式朴素贝叶斯算法原理及数学基础 #### 一、核心思想 多项式朴素贝叶斯是基于**贝叶斯定理**和**多项式分布假设**的分类算法,主要用于处理**离散型特征**(如文本分类中的词频统计)。其核心思想是通过计算给定特征条件下各类别的后验概率$P(Y=c_k|X=x)$,选择概率最大的类别作为预测结果[^1][^4]。 --- #### 二、数学基础 1. **贝叶斯定理** 后验概率计算公式: $$ P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)} $$ 其中: - $P(Y=c_k)$:类别的先验概率 - $P(X=x|Y=c_k)$:类条件概率(关键计算部分) - $P(X=x)$:证据因子(所有类别下相同,可忽略) 2. **多项式分布假设** 假设特征服从多项式分布,即对于特征$X=(x_1,x_2,...,x_n)$,每个$x_i$表示某个特征(如单词)在样本中出现的次数: $$ P(X=x|Y=c_k) = \frac{(\sum x_i)!}{x_1!x_2!...x_n!} \prod_{i=1}^n p_{ki}^{x_i} $$ 实际应用中取对数简化计算: $$ \log P(X=x|Y=c_k) \propto \sum_{i=1}^n x_i \log p_{ki} $$ 3. **参数估计** - **条件概率$p_{ki}$**:使用**极大似然估计**,计算特征$i$在类别$c_k$中的相对频率: $$ p_{ki} = \frac{N_{ki} + \alpha}{N_k + \alpha n} $$ 其中: - $N_{ki}$:特征$i$在类别$c_k$中的总出现次数 - $N_k$:类别$c_k$所有特征的总出现次数 - $\alpha$:拉普拉斯平滑系数(防止零概率问题) - **先验概率$P(Y=c_k)$**:直接通过训练集类别频率计算: $$ P(Y=c_k) = \frac{\text{类别$c_k$样本数}}{\text{总样本数}} $$ --- #### 三、工作流程 1. **训练阶段**: - 统计每个类别下特征的出现次数 - 计算先验概率$P(Y=c_k)$和条件概率$p_{ki}$ - 存储参数用于预测 2. **预测阶段**: - 对输入特征$x$,计算所有类别的$\log P(X=x|Y=c_k) + \log P(Y=c_k)$ - 选择概率最大的类别作为输出 --- #### 四、应用场景 - **文本分类**(如垃圾邮件识别、新闻分类) - **词频统计**(特征为单词出现次数) - **推荐系统**(用户行为计数) --- #### 五、特点与局限性 1. **优点**: - 计算效率高,适合高维稀疏数据 - 支持增量训练(参数可逐步更新) 2. **局限性**: - 强假设特征独立(实际中可能不成立) - 对未登录词敏感(需配合平滑技术) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值