机器学习中的训练管道与特征工程
训练管道概述
在机器学习领域,训练模型并非唯一重点,构建一个可重现地准备模型和其他相关产物的管道同样重要。训练管道和推理管道有所不同,训练管道用于训练模型本身,而推理管道用于在生产环境中运行模型,或者作为训练管道的一部分。
一个典型的训练管道生命周期包含七个连续步骤:
1. 数据获取 :收集用于训练模型的数据。
2. 预处理 :对获取的数据进行清洗、转换等操作,使其适合模型训练。
3. 训练 :使用预处理后的数据对模型进行训练。
4. 评估 :评估训练好的模型的性能。
5. 测试 :进一步测试模型在新数据上的表现。
6. 后处理 :对模型的输出进行进一步处理。
7. 产物打包 :将训练好的模型和相关产物进行打包。
8. 报告生成 :生成关于模型训练和评估的报告。
目前,在处理管道时,还没有完善的平台和工具标准。不过,在通用机器学习领域,有一些经过时间检验的解决方案,可根据所设计系统的类型进行选择。
在管道扩展方面,有垂直扩展和水平扩展两种方法。垂直扩展较为简单,容易实现,但受限于机器的潜在最大性能;水平扩展则为提升硬件性能提供了更大的机会。
同时,要确保管道在可配置性方面达到平衡。如果配置不足或过度配置,管道可能会过于僵化、难以更改
超级会员免费看
订阅专栏 解锁全文
894

被折叠的 条评论
为什么被折叠?



