机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,这个产生的模型大体上可以分为“判别式模型”和“生成式模型”两大类。
其中判别式模型是给定x,通过直接对条件概率分布P(y|x)进行建模来预测y。这种方法寻找不同类别的最优分类面,反映的是异类数据之间的差异。之前几篇文章中介绍的SVM、决策树、线性模型等都是属于判别式模型。
生成式模型则是先对联合概率分布P(x,y)建模,然后再由此获得P(y|x)。对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。我们本篇文章介绍的贝叶斯分类器和后面将要介绍的隐马尔科夫模型都是属于生成式模型。
目录
一、从分类任务说起
二、朴素贝叶斯分类器
三、半朴素贝叶斯分类器与贝叶斯网
一、从分类任务说起
给定数据集D={(x1,y1),(x2,y2),(x3,y3),……,(xn,yn)},其中xi为第i组数据的属性集合,yi为第i组数据的标记。分类任务的目标旨在习得一个从xi到yi的映射f(xi)=yi,所以用于分类的机器学习算法的任务就是依据x的特征与标记y的关系来构造分类器f。
在线性模型中,我们假设x的特征(a1,a2,…,an)与标记y之间存在着一种线性关系,即