学习周志华老师《机器学习》西瓜书第7章 贝叶斯分类器 摘要及笔记。
贝叶斯决策论
对分类任务而言,在相关概率已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失选择最优。最小化分类器错误率的贝叶斯最优分类器为:
极大似然估计
估计类条件概率先假定其具有某种确定的概率分布形式,再基于训练样本进行参数估计。统计学界出现了两个学派:频率主义认为参数是客观存在的固定值,贝叶斯学派则认为参数也服从一个分布。极大似然估计(MLE)是据数据采样估计概率分布参数的经典方法。
朴素贝叶斯分类器与半朴素贝叶斯分类器
对于有限的样本直接估计联合概率,会遇到组合爆炸与样本稀疏的问题,朴素贝叶斯分类器将其简化,采用属性条件独立性假设。
在现实任务中,朴素贝叶斯分类器的这一假设难以成立,需要适度放松,半朴素贝叶斯分类器假定每个属性在类别之外仅依赖于一个其他属性,即“独依赖估计(ODE)”,最直接的做法是假定所有属性都是依赖于同一个属性,称之为“超父”,通过交叉验证等模型选择此超父属性,由此形成SPODE方法。AODE是另外一种通过集成学习的更强大的独依赖分类器。