基础的pandas,sklearn等等就不说了,最近因为比赛,学了几个特别给力的工具。感觉世界被打开了。
自动机器学习
他们采用不同的办法,有的是给予进化遗传算法,有其他的。这里几个工具是把特征选择和调参都给包含了。功能很强大。
- TPOT,主要用这个,很强大
- AutoML
- Auto-sklearn,特点就是与sklearn无缝对接。
- H2O,口碑也很好,不过没太常用。
自动调参
hyperopt
这个安装包包含了常见的调参方法,和常见的模型,特别是竞赛友好的gbdt的几个变形。包含了,Tree-structured Parzen Estimator (TPE),模拟退火算法,随机搜索算法。根据我有限的实验,其中随即搜索在数据量可观的情况下,表现较好,在短时间能调出很不错的结果。
特征选择
模型融合(ensemble)
ensemble包括bagging, boosting, stacking
- Sklearn,还是最常见的
- mlxtend