生成模型 判别模型

问题由来:监督学习分类问题

 监督学习的任务就是从数据中学习一个模型(也叫分类器),应用这一模型,对给定的输入X预测相应的输出Y。这个模型的一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。

 决策函数Y=f(X):你输入一个X,它就输出一个Y,这个Y与一个阈值比较,根据比较结果判定X属于哪个类别。例如两类(w1和w2)分类问题,如果Y大于阈值,X就属于类w1,如果小于阈值就属于类w2。这样就得到了该X对应的类别了。

条件概率分布P(Y|X):你输入一个X,它通过比较它属于所有类的概率,然后输出概率最大的那个作为该X对应的类别。例如:如果P(w1|X)大于P(w2|X),那么我们就认为X是属于w1类的。

所以上面两个模型都可以实现对给定的输入X预测相应的输出Y的功能。实际上通过条件概率分布P(Y|X)进行预测也是隐含着表达成决策函数Y=f(X)的形式的。例如也是两类w1和w2,那么我们求得了P(w1|X)和P(w2|X),那么实际上判别函数就可以表示为Y= P(w1|X)/P(w2|X),如果Y大于1或者某个阈值,那么X就属于类w1,如果小于阈值就属于类w2。

而同样,很神奇的一件事是,实际上决策函数Y=f(X)也是隐含着使用P(Y|X)的。因为一般决策函数Y=f(X)是通过学习算法使你的预测和训练数据之间的误差平方最小化,而贝叶斯告诉我们,虽然它没有显式的运用贝叶斯或者以某种形式计算概率,但它实际上也是在隐含的输出极大似然假设(MAP假设)。也就是说学习器的任务是在所有假设模型有相等的先验概率条件下,输出极大似然假设。

此段话核心是:条件概率分布预测包含决策函数思维;决策函数隐含使用极大似然假设进行决策结果计算。

关键表达:无论进行概率模型估计还是找决策函数都是为了能设计出分类器(classifier)。

 分类器的design idea:

if(在给定训练数据的基础上估计其概率模型P(Y|X)。即如果可以估计出来,那么就可以分类了。)

if(概率模型比较难估计的【数据少、规律不明显】){

        #如何设计分类器?

        if(能够从要解决的问题和训练样本出发直接求出判别函数F(X),就不用估计概率模型了)

}

 判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知机,决策树,支持向量机等。

生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),先求出P(X,Y)进而得到P(Y|X),这个过程得先求出P(X)。

 

生成模型和判别模型的优缺点

       在监督学习中,两种方法各有优缺点,适合于不同条件的学习问题。

        生成方法的特点:生成方法学习联合概率密度分布P(X,Y)。所以,可从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪。

  1.  生成方法可以还原出联合概率分布P(Y,X),而判别方法不能;
  2. 生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型;
  3. 当存在隐变量时,仍可以用生成方法学习。此时判别方法就不能用。

       判别方法的特点:判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。

  1. 直接面对预测,往往学习的准确率更高
  2. 由于直接学习P(Y|X)或P(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

 

四、生成模型和判别模型的联系

       由生成模型可以得到判别模型,但由判别模型得不到生成模型。

 


总结: 

生成模型试图找到这个数据是怎么生成的(产生的),然后再对一个样本数据进行分类。即基于模型的生成假设,决策样本数据最有可能的类别。

判别模型则不关心数据是如何生成的,它只关心数据之间的差别,然后基于数据间的差别来对给定的一个样本数据进行分类。

类似于推荐系统的中一个是基于内容推荐(生成模型),一个是基于行为推荐(判别模型)。这只是一个意识上的类似,或者说为了更好的理解二者的含义,严格意义不能这样表述。

 

转载于:https://my.oschina.net/u/1462678/blog/1573653

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值