朴素贝叶斯算法

目录

贝叶斯公式

朴素贝叶斯分类器

拉普拉斯修正

文本/垃圾邮件分类

总结


贝叶斯公式

贝叶斯公式是由英国数学家贝叶斯(Thomas Bayes)发展,用来描述两个条件概率之间的关系,比如P(A|B)和P(B|A)。按照乘法法则,可以立刻导出:P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)。贝叶斯公式也被称为贝叶斯定理或贝叶斯法则,是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。

贝叶斯公式:

P(A|B)=\frac{P(B|A)*P(A)}{P(B)}

其中,P(A|B)表示在事件B发生的条件下事件A发生的概率,P(B|A)表示在事件A发生的条件下事件B发生的概率,P(A)和P(B)分别表示事件A和事件B各自独立发生的概率。


朴素贝叶斯分类

朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

后验概率P(c|x)表示在给定相关因素x的条件下,某个类别c发生的概率。如果x包含多个相关因素,可以表示为x = (x1, x2, ..., xn),其中每个xi代表一个相关因素:


拉普拉斯修正

拉普拉斯修正是一种改进的朴素贝叶斯分类器,解决了在朴素贝叶斯分类器中遇到的问题,即当某个特征值在训练集中未出现时,会导致整个实例的概率结果为0。拉普拉斯修正通过给每个计数加上一个较小的数(通常为1),既保证了每个属性概率非零又保证了概率和为1。

类先验概率公式

Dc表示训练集D中c类样本组成的集合,条件概率公式

D_{c,x_{_{i}}}表示Dc中在第i个属性熵取值为xi的样本组成的集合。 采用拉普拉斯修正后,两个式子变为

拉普拉斯修正避免了因训练集不充分而导致概率估值为零的问题。


文本/垃圾邮件分类

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import os


# 定义存储邮件内容的列表
ham_emails = []
spam_emails = []

# 读取"ham"文件夹中的邮件数据
ham_folder = "ham"
for filename in os.listdir(ham_folder):
    with open(os.path.join(ham_folder, filename), 'r', encoding='latin1') as file:
        email_content = file.read()
        ham_emails.append(email_content)

# 读取"spam"文件夹中的邮件数据
spam_folder = "spam"
for filename in os.listdir(spam_folder):
    with open(os.path.join(spam_folder, filename), 'r', encoding='latin1') as file:
        email_content = file.read()
        spam_emails.append(email_content)

# 继续后续的邮件分类处理工作...


# 构建标签,0代表非垃圾邮件,1代表垃圾邮件
y = np.array([0] * len(ham_emails) + [1] * len(spam_emails))

# 合并邮件内容
emails = ham_emails + spam_emails

# 将文本转换为词频向量
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练朴素贝叶斯分类器
clf = MultinomialNB()
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

结果:


总结

朴素贝叶斯分类是一种基于贝叶斯定理和特征条件独立假设的简单概率分类算法。它的特点包括基于贝叶斯定理进行分类、假设特征条件独立以简化计算过程。朴素贝叶斯分类的步骤包括数据预处理、计算先验概率、计算条件概率和预测分类。它的优点有简单高效、对小规模数据表现良好、鲁棒性强。朴素贝叶斯分类适用于文本分类、推荐系统、医学诊断等领域。总体来说,它是一种简单但实用的分类方法。

【事件触发一致性】研究多智能体网络如何通过分布式事件驱动控制实现有限时间内的共识(Matlab代码实现)内容概要:本文围绕多智能体网络中的事件触发一致性问题,研究如何通过分布式事件驱动控制实现有限时间内的共识,并提供了相应的Matlab代码实现方案。文中探讨了事件触发机制在降低通信负担、提升系统效率方面的优势,重点分析了多智能体系统在有限时间收敛的一致性控制策略,涉及系统模型构建、触发条件设计、稳定性与收敛性分析等核心技术环节。此外,文档还展示了该技术在航空航天、电力系统、机器人协同、无人机编队等多个前沿领域的潜在应用,体现了其跨学科的研究价值和工程实用性。; 适合人群:具备一定控制理论基础和Matlab编程能力的研究生、科研人员及从事自动化、智能系统、多智能体协同控制等相关领域的工程技术人员。; 使用场景及目标:①用于理解和实现多智能体系统在有限时间内达成一致的分布式控制方法;②为事件触发控制、分布式优化、协同控制等课题提供算法设计与仿真验证的技术参考;③支撑科研项目开发、学术论文复现及工程原型系统搭建; 阅读建议:建议结合文中提供的Matlab代码进行实践操作,重点关注事件触发条件的设计逻辑与系统收敛性证明之间的关系,同时可延伸至其他应用场景进行二次开发与性能优化。
【四旋翼无人机】具备螺旋桨倾斜机构的全驱动四旋翼无人机:建模与控制研究(Matlab代码、Simulink仿真实现)内容概要:本文围绕具备螺旋桨倾斜机构的全驱动四旋翼无人机展开,重点研究其动力学建模与控制系统设计。通过Matlab代码与Simulink仿真实现,详细阐述了该类无人机的运动学与动力学模型构建过程,分析了螺旋桨倾斜机构如何提升无人机的全向机动能力与姿态控制性能,并设计相应的控制策略以实现稳定飞行与精确轨迹跟踪。文中涵盖了从系统建模、控制器设计到仿真验证的完整流程,突出了全驱动结构相较于传统四旋翼在欠驱动问题上的优势。; 适合人群:具备一定控制理论基础和Matlab/Simulink使用经验的自动化、航空航天及相关专业的研究生、科研人员或无人机开发工程师。; 使用场景及目标:①学习全驱动四旋翼无人机的动力学建模方法;②掌握基于Matlab/Simulink的无人机控制系统设计与仿真技术;③深入理解螺旋桨倾斜机构对飞行性能的影响及其控制实现;④为相关课题研究或工程开发提供可复现的技术参考与代码支持。; 阅读建议:建议读者结合提供的Matlab代码与Simulink模型,逐步跟进文档中的建模与控制设计步骤,动手实践仿真过程,以加深对全驱动无人机控制原理的理解,并可根据实际需求对模型与控制器进行修改与优化。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值