简介
随着数据科学变得越来越主流,对更可访问、更灵活和可扩展的数据科学工具的需求将不断增长。为了满足这一需求,自动机器学习(AutoML)的研究人员已经开始构建自动化设计和优化机器学习管道过程的系统。在本章中,我们提出了TPOTv0.3,这是一个基于开源遗传编程的AutoML系统,它优化了一系列特征预处理器和机器学习模型,目标是在监督分类任务上提高分类精度。我们在一系列150个监督分类任务上对TPOT进行基准测试,发现其中21个任务显著优于基本的机器学习分析,同时在4个基准测试中经历了精度的最低下降——所有这些都没有任何领域知识,也没有人工输入。因此,基于遗传编程的AutoML系统在AutoML领域显示出相当大的前景。
1. tpot介绍
机器学习通常被描述为“一个研究领域,使计算机提供不被明确编程的学习能力”[19]。尽管有这个共同的说法,经验丰富的机器学习从业者知道,设计有效的机器学习管道通常是一项乏味的工作,通常需要大量的机器学习算法经验、问题领域的专家知识和时间密集型的蛮力搜索来完成[13]。因此,与机器学习爱好者会