Boosting 的思想源于:三个臭皮匠,胜过诸葛亮。Finding many rough rules of thumb can be a lot easier and more effective than finding a single, highly prediction rule.
基本概念:
1、机器学习(Machine Learning):将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。比如:人脸识别、文本识别、文本分类、网络安全、生物信息工程等。
2、学习机(learner):机器学习得到的规则或者模型。
3、样本:所研究问题的实例,一般在训练集中包括正样本和负样本。比如:一张人脸图像,一篇文章,一个病毒代码,一个生物的遗传编码等。
4、训练:采用某种方法,用已知属性的样本作为输入,得到相应规则的过程。
5、训练集:由已知属性的样本组成的集合,作为训练过程的输入数据。
6、测试集:由已知属性的样本组成的集合,作为测试过程的输入数据。
7、假设:学习机对样本做出的判断,即是否符合需要判定的事实。比如:某张脸是否是张三的,某篇文章是否属于新闻类别等。
8、特征选取:从实际数据中抽取反映其本质规律的属性。比如,人脸图像向量做PCA变换得到特征向量的投影系数,对文本进行语法分析后表示成关于词的特征向量等
9、弱学习机(weak learner):对一定分布的训练样本给出假设(仅仅强于随机猜测),比如:根据有云猜测可能会下雨
10、强学习机(strong learner):根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert)。
11、机器学习系统结构表示:
训练过程:训练集----特征选取----训练----学习机
测试过程:测试集----特征选取----学习机----测试结果
即:弱学习机®Boosting®强学习机