统计学习方法-第四章朴素贝叶斯

本文深入探讨了朴素贝叶斯这一基于贝叶斯定理与特征条件独立假设的分类方法。介绍了通过训练数据学习联合概率分布P(X,Y),进而求得后验概率分布P(Y/X)的过程。具体分析了如何利用训练数据进行P(X/Y)和P(Y)的估计,以获取联合概率分布P(X,Y),并讨论了概率估计方法,包括极大似然估计和贝叶斯估计。同时,文章指出由于条件独立性的假设,朴素贝叶斯模型的学习与预测过程得到了极大的简化,虽然这可能影响分类性能,但其高效性和易实现性使其在实际应用中仍具有重要价值。

1. 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。

由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y/X)。

具体地,利用训练数据学习P(X/Y)和P(Y)的估计,然后得到联合概率分布P(X,Y)

概率估计方法极大似然估计或者贝叶斯估计。

2. 由于条件独立性的假设,包含的条件概率大为减少,学习与预测大为简化,高效易实现,分类性能不一定高。

                

### 朴素贝叶斯分类器算法流程 朴素贝叶斯分类器的核心在于利用贝叶斯定理计算后验概率,并假设特征之间相互独立。以下是该算法的主要流程: #### 数据准备阶段 1. 收集并整理训练数据集合,确保每条记录都带有明确的类别标签[^1]。 2. 对于连续型变量,通常会将其离散化处理以便后续的概率估计更加简便。 #### 训练模型阶段 3. 针对每一个可能的目标类别 \( C_k \),统计训练集中属于此类别的样本数量占总样本数的比例,得到先验概率 \( P(C_k) \)。 4. 统计每个属性值条件下各个目标类别的联合分布情况,从而估算条件概率 \( P(x_i|C_k) \) 。这里可以采用极大似然估计法或其他平滑技术来完成这一过程[^3]。 #### 测试预测阶段 5. 当接收到一个新的测试样例时,分别依据上述所学得的知识去评估它归属于不同类别的可能性大小——即求解各 \( P(C_k|x_1,x_2,...,x_n)=P(C_k)\prod_{i=1}^{n}{P(x_i|C_k)}\) 的数值[^5]。 6. 找出使得上式取得最大值得那个特定类别标记作为最终判定结果。 为了提升效率,在某些应用场景下还可以预先计算好所有必要的概率项并将它们保存下来形成所谓的“查找表”,如此一来当面临实时在线请求的时候便可以直接查询而无需重复运算整个推导链条了[^4]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB # 加载鸢尾花数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.5, random_state=0) gnb = GaussianNB() # 使用训练数据拟合高斯朴素贝叶斯模型 y_pred = gnb.fit(X_train, y_train).predict(X_test) print(f"Number of mislabeled points out of a total {X_test.shape[0]} points : {(y_test != y_pred).sum()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值