朴素贝叶斯
介绍
朴素贝叶斯是一个使用贝叶斯定理进行建模的分类器。属于分类算法一列,它是基于贝叶斯定理和一个朴素的假设,即所有的特征都相互独立于其他给定的响应变量。而朴素贝叶斯还有一个假设就是每个特征同等重要。尽管这个假设看起开起来是有错的,但是实际效果却很好。朴素贝叶斯有多项式朴素贝叶斯、高斯朴素贝叶斯、伯努利朴素贝叶斯这几种类型,
原理
P(A)是观察到事件A的概率,P(B)是观察到事件B的概率。P(A|B)是观察到事件B的同时又观察到事件A的条件概率。
将公式换为平时分类的就会更容易识别
我们要求的就是P(类别|特征)的值,即在有这些特征下属于某类别的概率。
实现
scikit-learn实现
这里使用皮马印第安人糖尿病数据集做实验,数据集在这 数据集
import numpy as np
from sklearn.naive_bayes import GaussianNB # 导入sklearn的贝叶斯算法
from sklearn.model_selection import train_test_split
data = pd.read_csv('/home/h/Downloads/pima-indian