17、机器学习中的朴素贝叶斯算法与数据预处理

机器学习中的朴素贝叶斯算法与数据预处理

朴素贝叶斯算法概述

朴素贝叶斯是一种基础的学习算法,自 20 世纪 50 年代起就已被使用,尽管当时名称和形式略有不同。它与感知机更为相似,而非决策树,因为它基于一组用于获取预测的值。朴素贝叶斯以其在文本学习方面的有效性而闻名,并且对贝叶斯学派具有很大的吸引力。由于其简单性以及只需少量预处理的特点,在测试更复杂的解决方案之前,它已成为大多数机器学习文本问题的基线。

理解朴素贝叶斯

与感知机一样,朴素贝叶斯需要的是在特定上下文中某个结果的概率(条件概率),并且是将这些值相乘而非相加。它基于概率计算,因此需要进行典型的概率运算。

当概率相乘时,意味着这些事件是相互独立且互不影响的。这种假设虽然被认为过于简单和天真,但在许多基础机器学习算法中却很常见,因为在处理大量数据时,它的效果出奇地好。

朴素贝叶斯与贝叶斯定理相关,是该定理的一种简化形式。为了确定一个示例的类别,算法会执行以下步骤:
1. 学习将特征与每个可能类别连接起来的概率。
2. 将与每个结果类别相关的所有概率相乘。
3. 通过将每个概率除以它们的总和来对概率进行归一化。
4. 将具有最高概率的类别作为答案。

以打网球数据集为例,不同的天气状况(晴天、阴天、雨天)与是否打网球的正负答案相关。可以使用 pandas 的 crosstab 函数快速查看这种关系:

import pandas as pd

# 假设 tennis 是打网球的数据集
pd.crosstab(tennis.outlook,
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值