朴素贝叶斯（Naive Bayes）介绍和代码示例

最新推荐文章于 2025-12-18 17:00:31 发布

原创最新推荐文章于 2025-12-18 17:00:31 发布 · 891 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法

人工智能专栏收录该内容

92 篇文章

订阅专栏

朴素贝叶斯（Naive Bayes）介绍

1. 基本概念

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的简单概率分类器，它假设特征之间相互独立（条件独立性假设）。尽管这个假设在实际中往往不成立，但朴素贝叶斯分类器在许多实际应用中仍然表现出色，尤其是在文本分类、垃圾邮件过滤等领域。

2. 贝叶斯定理

贝叶斯定理描述了在已知某些条件下，事件发生的概率。公式如下：

其中：

P(C∣X) 是在特征 X 出现的条件下，类别 C 出现的概率（后验概率）。
P(X∣C) 是在类别 C 出现的条件下，特征 X 出现的概率（似然概率）。
P(C) 是类别 C 出现的先验概率。
P(X) 是特征 X 出现的先验概率。

3. 朴素贝叶斯分类器

朴素贝叶斯分类器通过计算每个类别的后验概率，并选择后验概率最高的类别作为预测结果。具体步骤如下：

计算先验概率：计算每个类别的先验概率 P(C)。
计算似然概率：计算每个特征在每个类别下的条件概率 P(X∣C)。
计算后验概率：根据贝叶斯定理计算后验概率 P(C∣X)。
选择类别：选择后验概率最高的类别作为预测结果。

4. 常见类型

高斯朴素贝叶斯：假设特征服从高斯分布，适用于连续数值型数据。
多项式朴素贝叶斯：假设特征服从多项式分布，适用于离散数据（如文本分类中的词频）。
伯努利朴素贝叶斯：假设特征是二元的（0或1），适用于二值特征数据。

朴素贝叶斯代码示例

以下是一个使用 Python 和 scikit-learn 实现的朴素贝叶斯分类器的代码示例，用于鸢尾花（Iris）数据集的分类任务：

Python

Copy

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建高斯朴素贝叶斯分类器
gnb = GaussianNB()

# 训练模型
gnb.fit(X_train, y_train)

# 预测测试集
y_pred = gnb.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")