适读人群:有机器学习算法基础
1. auto-sklearn 能 auto 到什么地步?
在机器学习中的分类模型中:
- 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分类器-输出预测值
- auto部分如下图绿色方框:在ML framework 左边新增 meta-learning,在右边新增 build-ensemble,对于调超参数,用的是贝叶斯优化。
- 自动学习样本数据: meta-learning,去学习样本数据的模样,自动推荐合适的模型。比如文本数据用什么模型比较好,比如很多的离散数据用什么模型好。
- 自动调超参:Bayesian optimizer,贝叶斯优化。
- 自动模型集成: build-ensemble,模型集成,在一般的比赛中都会用到的技巧。多个模型组合成一个更强更大的模型。往往能提高预测准确性。
- CASH problem: AutoML as a Combined Algorithm Selection and Hyperparameter optimization (CASH) problem

也就是说,一般的分类或者回归的机器学习模型即将或者已经实现了低门槛或者零门槛甚至免费建模的程度。
其实机器学习的每个步骤都可以向着自动化方向发展,而且自动化的方式又有很多种。
机器学习自动化的难点还是在数据清洗和特征工程这些技巧,至于模型筛选、模型集成和超参数调参已经有比较成熟可用的代码了。
我们的愿景是 人人都可以用得起机器学习系统? 有没有很google!
2. 目前有哪些公司在做AutoML,github上又有哪些开源项目?
业界在 automl 上的进展:
- Google: Cloud AutoML, Google’s Prediction API
https://cloud.google.com/automl/
- Microsoft: Custom Vision, Azure Machine Learning
Amazon: Amazon Machine Learning
- others: BigML.com, Wise.io, SkyTree.com, RapidMiner.com, Dato.com, Prediction.io, DataRobot.com
github上的开源项目:
- auto-sklearn (2.4k stars!)
https://github.com/automl/auto-sklearn
论文链接:
http://papers.nips.cc/paper/5872-efficient-and-robust-au

本文详细介绍了auto-sklearn,一种自动化的机器学习框架,能够自动完成模型选择、超参数调优及模型集成。它利用贝叶斯优化进行超参数调优,通过meta-learning提升模型性能,并支持多种分类器和预处理方法。
最低0.47元/天 解锁文章
533

被折叠的 条评论
为什么被折叠?



