automl框架:AutoGluon介绍

最新推荐文章于 2025-10-25 10:23:05 发布

原创

最新推荐文章于 2025-10-25 10:23:05 发布 · 1.9w 阅读

85 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #automl #Autogluon

AutoGluon是一个强大的automl框架，它通过融合多个模型来提升预测性能，如stacking和K-折Bagging。在数据预处理中，它进行特征生成和类型转换。框架自动选择模型并进行训练，如KNN、LightGBM等，最终构建WeightedEnsemble。案例展示了在income分类任务上的应用，展示训练过程和测试结果。

文章目录

automl框架:AutoGluon介绍

automl框架:AutoGluon介绍

原理

大部分automl框架是基于超参数搜索技术，例如基于贝叶斯搜索的hyperopt技术等
AutoGluon则依赖融合多个无需超参数搜索的模型，三个臭皮匠顶个诸葛亮
stacking: 在同一份数据上训练出多个不同类型的模型，这些模型可以是KNN、tree、核方法等，这些模型的输出进入到一个线性模型里面得到最终的输出，就是对这些输出做加权求和，这里的权重是通过训练得出。
K-则交叉Bagging：Bagging是训练同类别的多个模型，他们可能使用不同的初始权重或者数据块，最终将这些模型的输出做平均来降低模型的方差。
K-则交叉Bagging，源自于K-则交叉验证。
- 相同点都是对数据集做K折
- K-则交叉验证：相同的初始参数，训练多次，对每次的误差求平均后作为这些初始参数的最终误差，为了最大化利用数据集，可以有效避免过拟合和欠拟合。
  - （是为了验证初始参数）
- K-则交叉Bagging：每一则对应不同的初始参数，训练出多个模型，对结果求平均（3个臭皮匠顶个诸葛亮）
多层Stacking：将多个模型输出的数据，合并起来，再做一次Stacking。在上面再训练多个模型，最后用一个线性模型做输出。
- 为了避免后面层过多拟合数据，多层Stacking通常配合K-则交叉Bagging使用，也就是说这里的每个模型是K个模型的Bagging。它对下一层stacking的输出，是指每个bagging模型对应验证集上输出的合并

安装

conda create -y --force -n p38 python=3.8 pip
conda activate p38
pip install -U "mxnet<2.0.0"
pip install autogluon

案例

加载数据集

from autogluon.tabular import TabularDataset, TabularPredictor
train_data = TabularDataset('https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv')
subsample_size = 500  # subsample subset of data for faster demo, try setting this to much larger values
train_data = train_data.sample(n=subsample_size, random_state

最低0.47元/天解锁文章