mnist的Bayes分类是基于python 3.7.0、numpy 1.16.2版本实现的。
总结:贝叶斯分类器的主要思想:P(y|X)=P(y)*P(X|y)/P(Y)
因为对所有类别来说,P(X)相同,因此求解P(y|X)的主要在于求解 先验概率 P(y)和 类条件概率 P(X|y),原问题简化为:当类别y取不同值时,求P(y)*P(X|y)的最大值,此时类别y即为 X 的类别。
原问题等价为:当类别y取不同值,max P(y)*P(X|y)
在训练模型的过程中,主要训练计算出先验概率P(y),以及与条件概率相关的中间量。对于每一个未知分类的测试样本,需要计算它属于每个类别时的类条件概率P(X|y)及后验概率等价公式P(y)*P(X|y),选取不同类别y下P(y)*P(X|y)的最大值来确定X的类别。
一、样本中的属性相互独立
step1. 基本思想
基于属性条件独立性假设,贝叶斯分类器的主要思想可重写为(d为单个样本的属性维度):
因此,原问题的等价问题为: