摘要
集成(ensemble)由多个学习器组成,能达到比单一学习器更好的泛化性能。遗传编程(genetic programming, GP)已经被应用于利用诸如bagging和boosting的不同策略来构建集成。然而,没有基于GP的集成方法专注于处理图像分类,这一在计算机视觉和机器学习中具有挑战性的任务。本文提出了一种使用GP的自动化集成学习框架(EGP)进行图像分类。新的方法将特征学习(feature learning)、分类函数选择(classification function selection)、分类器训练(classifier training)集成到单个程序树中。为了实现这一点,在EGP中开发了一个新的程序结构、一个新的函数集和一个新的终端集。
EGP的性能在九种不同难度的图像分类数据集上进行检验,并与大量常用方法(包括最近发布的方法)进行比较。结果表明,EGP比大多数竞争方法取得了更好的性能。进一步分析表明,EGP演化出良好的集成,能够同时平衡多样性和准确性。据我们所知,这项研究是使用GP自动生成集成用于图像分类的第一项工作。
相关概念
ensemble learning 集成学习
集成学习是一种机器学习范式,旨在通过构建并组合多个学习器来提高预测准确性。它的核心思想是通过结合多个模型来减少总体的误差,理论上,这些模型的组合可以比任何单个模型表现得更好。集成学习可以用于分类、回归和其他任务,适用于多种算法,包括决策树、神经网络、支持向量机等。有Bagging,Boosting和Stacking三种方法。
- Bagging:该方法通过对原始数据集进行多次重采样,构建多个训练子集,然后分别训练多个基学习器。最终的预测结果是通过对所有基学习器的预测结果进行平均或多数投票得到的。典型的算法有随机森林(Random Forest)。
- Boosting:按顺序训练基学习器,每个基学习器都尝试纠正前一个基学习器的错误。