参考资料:NG机器学习、李航《统计学习》、以及论文等
机器学习定义
引用:Arthur Samuel(1956): Field of study that gives computers the ability to learn without being explicitly programmed.
Tom Mitchell(1998): A computer program is said to learn from experience E with respect to some task T and some performance measure P. If its performance on T, as measured by P, improves with experience E.
总结来说:算法在某个任务上,学习了某些知识,取得某种表现。
机器学习术语
术语 | 说明 |
---|---|
样本 Sample | 统计学中,样本是所观测或调查的一部分个体,总体是研究对象的全部。 |
特征 Feature | 通俗上说,特征指区分事物的关键。举例:Ng常提到的Portland房价预测问题,预测房价,房子的大小、所处位置、房龄等都在一定程度上决定了房价,那么在预测过程中如果使用到上述房子的属性称之为特征。 |
标签 Label | 抽象问题时,Y=H(X1,X2,X3,Xn),机器学习算法学习输入变量(特征)Xi与Y之间的映射,则称Y为标签。如Portland房价预测中样本中的房价则称为标签。 |
多角度谈机器学习分类
1. 训练数据:
有监督学习:需要指导机器进行学习,通俗说也就是需要标签数据;
无监督学习:机器自己进行学习,数据不需要具有标签;
半监督学习:当然有上面两个极端,就会有产生中间的方案,半监督学习正是如此。
2. 有监督学习算法的学习方式(概率角度):
生成模型:通过对训练数据的学习得到联合概率分布,即特征X(X1,X2,X3,,,,Xn)与标签Y联合概率P(X,Y),然后可以求条件概率分布或边缘概率分布。如朴素贝叶斯、隐马尔可夫模型等。
判别模型:通过对训练数据的学习得到条件概率分布,即P(Y|X)。如感知机、决策树、最大熵、条件随机场模型、支持向量机等。