统计学习-朴素贝叶斯算法(Naive Bayes)

关联文章:

统计学习--最大似然和贝叶斯估计的联系

解决问题

监督学习模型,属于生成模型,非线性

基于条件独立假设条件

描述:

对于给定的训练数据集,基于特征条件独立假设学习联合概率分布,其次基于此模型对新的输入x,利用贝叶斯定理求出后验概率最大的输出y(类别)

模型:

策略:

算法

公式解

条件独立假设:

贝叶斯定理:

### 朴素贝叶斯分类算法流程 朴素贝叶斯分类器的核心在于利用贝叶斯定理计算后验概率,并假设特征之间相互独立。以下是该算法的主要流程: #### 数据准备阶段 1. 收集并整理训练数据集合,确保每条记录都带有明确的类别标签[^1]。 2. 对于连续型变量,通常会将其离散化处理以便后续的概率估计更加简便。 #### 训练模型阶段 3. 针对每一个可能的目标类别 \( C_k \),统计训练集中属于此类别的样本数量占总样本数的比例,得到先验概率 \( P(C_k) \)。 4. 统计每个属性值条件下各个目标类别的联合分布情况,从而估算条件概率 \( P(x_i|C_k) \) 。这里可以采用极大似然估计法或其他平滑技术来完成这一过程[^3]。 #### 测试预测阶段 5. 当接收到一个新的测试样例时,分别依据上述所学得的知识去评估它归属于不同类别的可能性大小——即求解各 \( P(C_k|x_1,x_2,...,x_n)=P(C_k)\prod_{i=1}^{n}{P(x_i|C_k)}\) 的数值[^5]。 6. 找出使得上式取得最大值得那个特定类别标记作为最终判定结果。 为了提升效率,在某些应用场景下还可以预先计算好所有必要的概率项并将它们保存下来形成所谓的“查找表”,如此一来当面临实时在线请求的时候便可以直接查询而无需重复运算整个推导链条了[^4]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB # 加载鸢尾花数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.5, random_state=0) gnb = GaussianNB() # 使用训练数据拟合高斯朴素贝叶斯模型 y_pred = gnb.fit(X_train, y_train).predict(X_test) print(f"Number of mislabeled points out of a total {X_test.shape[0]} points : {(y_test != y_pred).sum()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

heda3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值