生成模型(Generative Model)
作用:判别式模型估计条件概率分布P(y|x),判别数据的输出量。
特性:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。因此,生成模型更适用于无监督学习
求解思路:联合分布 —> 求解类别先验概率和类别条件概率
优点:
- 能学习联合概率分布,
- 能够通过联合概率分布和贝叶斯准则计算条件概率分布,
- 能够通过联合概率分布计算边缘分布。
- 能够学习隐变量
- 收敛速度快
缺点:
- 需要更大的样本量和计算量
- 准确率低
- 类别条件概率的许多信息是我们做分类用不到,因而如果我们只需要做分类任务,就浪费了计算资源。
典型的生成模型包括:
- 混合高斯模型和其他混合模型
- 隐马尔可夫模型(HMM)
- 随机上下文无关文法
- 朴素贝叶斯分类器(NB)
- AODE分类器
- 潜在狄利克雷分配模型(LDA)
- 有限波尔兹曼机
判别模型(Discriminative Model)
作用:判别式模型估计条件概率分布P(y|x),判别数据的输出量。
特性:对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。因此,判别模型更适合监督学习。
求解思路:条件分布 —> 模型参数后验概率的最大值 —> (似然函数 * 参数先验)的最大值 —> 最大似然
优点:
- 节省计算资源
- 需要的样本数量少。
- 直接面对预测,往往学习的准确率更高。
- 由于直接学习P(Y|X)或P(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
缺点:
- 不能学习隐变量
- 不能学习联合概率分布
- 收敛速度较慢
典型的判别模型包括:
- 感知机
- 逻辑回归
- 支持向量机
- k近邻
- 决策树