17、机器学习中的朴素贝叶斯算法与数据预处理

人间计算器

于 2025-06-27 15:25:14 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门：从零开始的实战指南文章标签：朴素贝叶斯数据预处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/149381862

机器学习入门：从零开始的实战指南专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的朴素贝叶斯算法与数据预处理

朴素贝叶斯算法概述

朴素贝叶斯是一种基础的学习算法，自 20 世纪 50 年代起就已被使用，尽管当时名称和形式略有不同。它与感知机更为相似，而非决策树，因为它基于一组用于获取预测的值。朴素贝叶斯以其在文本学习方面的有效性而闻名，并且对贝叶斯学派具有很大的吸引力。由于其简单性以及只需少量预处理的特点，在测试更复杂的解决方案之前，它已成为大多数机器学习文本问题的基线。

理解朴素贝叶斯

与感知机一样，朴素贝叶斯需要的是在特定上下文中某个结果的概率（条件概率），并且是将这些值相乘而非相加。它基于概率计算，因此需要进行典型的概率运算。

当概率相乘时，意味着这些事件是相互独立且互不影响的。这种假设虽然被认为过于简单和天真，但在许多基础机器学习算法中却很常见，因为在处理大量数据时，它的效果出奇地好。

朴素贝叶斯与贝叶斯定理相关，是该定理的一种简化形式。为了确定一个示例的类别，算法会执行以下步骤：
1. 学习将特征与每个可能类别连接起来的概率。
2. 将与每个结果类别相关的所有概率相乘。
3. 通过将每个概率除以它们的总和来对概率进行归一化。
4. 将具有最高概率的类别作为答案。

以打网球数据集为例，不同的天气状况（晴天、阴天、雨天）与是否打网球的正负答案相关。可以使用 pandas 的 crosstab 函数快速查看这种关系：

import pandas as pd

# 假设 tennis 是打网球的数据集
pd.crosstab(tennis.outlook,

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。