机器学习：朴素贝叶斯-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_63698246/article/details/134512487

一：朴素贝叶斯介绍

1.1定义

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的机器学习分类算法。该算法基于特征之间条件独立的假设，这意味着它假定给定类别的特征之间是相互独立的。尽管这个假设在实际问题中并不总是成立，但朴素贝叶斯仍然在许多实际应用中表现良好，并且具有快速、简单、高效的特点。

在应用朴素贝叶斯进行分类时，算法会首先从训练数据中学习类别与特征之间的关系，然后根据特征的出现概率来预测新样本属于哪个类别。朴素贝叶斯算法在文本分类、垃圾邮件过滤、情感分析等领域得到广泛应用，尤其在大规模数据集上表现优异。

1.2公式

贝叶斯公式（Bayes formula）是一种用于计算后验概率的公式，它基于先验概率和观测数据，计算出更新后的概率。具体地，对于某个假设或事件A和已知的观测数据B，贝叶斯公式可以表示为：

其中，P(A)为A的先验概率，即在考虑观测数据B之前，我们对A的概率分布的了解；P(B|A)为给定A条件下B的概率，即在A成立的情况下，观测到B的概率；P(B)为B的边缘概率，即B在所有可能的假设下的概率。最终，P(A|B)为给定B的条件下A的后验概率，即在考虑观测数据B之后，对A的概率分布的更新。

二、算法原理

朴素贝叶斯算法的原理如下：

基于训练数据计算类别的先验概率：首先，算法会利用训练数据集中每个类别出现的频率，计算出每个类别的先验概率P(c)，即在未考虑任何特征的情况下，每个类别出现的概率。
计算特征的条件概率：对于每个特征属性，算法会计算在每个类别下该特征出现的条件概率P(x|c)，即在已知类别的情况下，该特征出现的概率。
根据贝叶斯公式计算后验概率：当有新的样本需要分类时，算法会利用贝叶斯公式结合先验概率和条件概率，计算出在给定特征下每个类别的后验概率P(c|x)。具体地，根据贝叶斯公式：

P(c|x) = P(x|c) * P(c) / P(x)

其中，P(x)为样本特征的边缘概率，通常在分类问题中可以忽略，因为在比较不同类别的后验概率时，P(x)是相同的。因此，可以简化为：

P(c|x) ∝ P(x|c) * P(c)
选择后验概率最大的类别：最后，算法会选择具有最大后验概率P(c|x)的类别作为样本的分类结果。

三、朴素贝叶斯实现垃圾邮件分类

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# 定义训练函数
def train_naive_bayes(X, y):
    # 将文本数据转换为特征向量
    vectorizer = CountVectorizer()
    X_vectorized = vectorizer.fit_transform(X)

    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

    # 初始化朴素贝叶斯分类器
    nb_classifier = MultinomialNB()

    # 在训练集上训练分类器
    nb_classifier.fit(X_train, y_train)

    # 在测试集上进行预测
    y_pred = nb_classifier.predict(X_test)

    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    print("准确率:", accuracy)

    # 输出混淆矩阵
    conf_matrix = confusion_matrix(y_test, y_pred)
    print("混淆矩阵:")
    print(conf_matrix)

    # 返回训练好的模型和向量化器
    return nb_classifier, vectorizer

# 定义分类函数
def classify_naive_bayes(nb_classifier, vectorizer, X):
    # 将文本数据转换为特征向量
    X_vectorized = vectorizer.transform(X)

    # 使用训练好的模型进行分类
    y_pred = nb_classifier.predict(X_vectorized)

    # 返回预测结果
    return y_pred

# 假设X是邮件内容的列表，y是对应的标签（0表示非垃圾邮件，1表示垃圾邮件）
X = ["这是一封正常邮件", "这是一封垃圾邮件", "正常邮件内容", "垃圾邮件内容"]
y = [0, 1, 0, 1]

# 调用训练函数
nb_classifier, vectorizer = train_naive_bayes(X, y)

# 假设要对新的邮件进行分类，将该邮件的文本放入一个列表中
new_email = ["这是一封垃圾邮件，赶快删除！"]

# 调用分类函数
y_pred = classify_naive_bayes(nb_classifier, vectorizer, new_email)

print("预测结果:", y_pred)