今天看了一下集成学习部分,把相关知识点总结了一下。这个是无公式版,想看公式的话,请看《机器学习》--周志华 这本书。
- 通过结合多个学习器完成学习任务,也叫“多分类器系统”、“基于委员会的学习”等。如果集成在一起的学习器都是同一种学习器(例如都是神经网络或者决策树),这种集成叫做“同质集成”,相应的学习器叫做“基学习器”,应用的算法叫做“基学习算法”。如果集成在一起的学习器不是同一种学习器(例如其中包括神经网络和决策树),这种集成叫做“异质集成”,相应的学习器叫做“组件学习器”或“个体学习器”。
- 集成的目的是获得比通过使用一个学习器获得更好的效果。例如,通过将弱学习器集成,来获得更好的较强的学起器。但通常进行的都是较强学习期的集成。(弱学习器:指泛化性能略优于随机猜测的学习器。例如在二分问题上精度略高于50%的分类器。)
- 要获得较好的集成效果,应该要求学习器“好而不同”。(好而不同的意思是,单个学习器要有一定的“准确性”,而且学习器之间要有差异。)集成结果通过“投票法”得出。(如果投票结果相同,可随机选择。)如何产生“好而不同”的个体学习器,才是集成学习的核心。