今天在微博上遇到一篇ensemble learning 的文章,读完感觉还不错。http://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/
这篇文章简单的ensemble learning 的入门的一些,比较简单。
第一点:通过购买一家公司的股票时可以通过不同的途径向不同的人咨询(公司内部员工,证券交易所的员工等)获得他的评价来最终决定是否可以购入。
这里面涉及到一点,不同途径给出的建议要具有独立性,例如将多个该公司内部员工的建议综合起来的独立性就没有之前的好。
第二点:什么是集成学习,如何区分不同
集成学习是一门将不同学习者结合的艺术。
不去不同学习者可以从:
1. Difference in population
2. Difference in hypothesis
3. Difference in modeling technique
4. Difference in initial seed
第三点:集成学习的误差bias :表示的是在平均程度上,预测值与真实值之间的误差。偏差越大,模型的预测效果越差。
variance:就是方差了,就是预测结果的方差。方差越大,有可能会过拟合。
bias 和 variance 的联系:
问题的关键就变成了如何折中的选择bias and variance:
第四点:几种经常用到的集成学习技术:
1、bagging
这个就比较简单了,只是集合起来而已,不同model之间没有联系。可以减小方差。
2、boosting
它就是迭代的进行,每次改变单个数据的权重,错误的权重增加。可以减少偏差,但有时候会在训练数据上过拟合。
3、stacking
他通过利用一个学习者集成多个学习者的结果,可以同时减少方差和偏差。