模型 | 学习策略 | 风险函数 | 判别/生成 |
---|---|---|---|
感知机 | 误分类点到超平面的总距离 | 经验风险最小化 | 判别模型 |
K近邻 | 误分类的概率 | 经验风险最小化 | 判别模型 |
朴素贝叶斯法 | 后验概率最大化 | 极大似然估计:期望风险最小化;贝叶斯估计:结构风险最小化 | 生成模型 |
决策树 | 选取信息增益最大的特征分类 | 结构风险最小化 | 判别模型 |
监督学习和无监督学习
我的理解是,是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。训练数据的一部分是有标签的,另一部分没有标签,那就是半监督学习(semi-supervised learning),通常没标签数据的数量常常极大于有标签数据数量。
例如,假如输入数据是已经分好类的样本,样本的种类就是标签,则为有监督学习,如果没有分类,计算机就需要自己按照相似度自动划分出类别,也就是聚类。
生成模型和判别模型
我是这样理解的:
生成模型,就是生成(数据的分布)的模型;
判别模型,就是判别(数据输出量)的模型;
更进一步:
从结果角度,两种模型都能给你 输出量(label 或 y etc.)。
但,生成模型的处理过程会告诉你关于数据的一些统计信息(p(x|y) 分布 etc.),更接近于统计学;
而 判别模型则是通过一系列处理得到结果,这个结果可能是概率的或不是,这个并不改变他是不是判别的。
如,决策树的if then说不是这个就是那个(而很多属性都是有分布的)【即分支】,明显是一种判别;
而朴素贝叶斯说,模型生成了一个分布给你了
k近邻法、感知机、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法是判别模型;
朴素贝叶斯、隐马尔可夫模型(重点的EM算法)是生成模型。
来自知乎:https://www.zhihu.com/question/20446337/answer/45130939
精确率和召回率
来自知乎:https://www.zhihu.com/question/19645541
向量的范数
决策树
决策树之ID3算法
原理及代码:http://blog.youkuaiyun.com/acdreamers/article/details/44661149
决策树之CART算法
原理及代码:http://blog.youkuaiyun.com/acdreamers/article/details/44664481