介绍
当做重要决定,大家都会吸取多个专家的决定。机器学习也有类似的方法,即元算法或者集成方法,其是组合其他算法,结合而成的一直复合方法,当然也可以是同一种算法在不同设置下的集成。
bagging:自举汇聚法(bootstrap aggregating),再原始数据进行s次选择之后,得到s个新数据集。新数据集和原数据集大小相等。每个数据集都是再原始数据集中随机选择一个样本进行替换得到。随机选择,再随机选择来代替。
boosting类似上面那个,但是它用的分类器都是同一个,只是后一个是基于前面一个的基础上训练,而且着重关注被错分的那些,这里只看AdaBoost。弱分类器也就是结果仅仅比随机猜测好那么一点。
步骤
首先再训练数据上训练出一个弱分类器并计算错误率,然后再次在这个训练集上继续训练弱分类器。第二次会把第一次分对的数据权重调低,把误分的权重调高。另外,每个分类器都有一个权重αα,这个值是根据每个弱分类器的错误率进行计算的。
错误率
ϵ=未正确分类的样本数目所有样本数目ϵ=未正确分类的样本数目所有样本数目
而 αα 的计算方式为