端到端机器学习流程示例及自动化解决方案
模型评估与生产就绪判断
在机器学习项目中,训练好的模型是否能投入生产,需要将观察结果与业务用例中设定的目标和成功标准进行对比。以年龄计算器应用为例,如果其主要目标是为渔民提供鲍鱼年龄的大致参考,那么当前模型或许可以投入生产;但如果目标是提供准确的年龄预测,该模型可能就还未达到生产要求。
若模型未准备好投入生产,后续的机器学习流程有哪些步骤呢?主要有以下三个可能的方向:
1. 获取更多数据 :这要求机器学习从业者回到流程起点,收集更多数据。由于UCI鲍鱼数据集是唯一公开可用的数据集,可能需要亲自捕捞鲍鱼或向渔民进行调查来获取更多观测数据,这无疑是非常耗时的。而且,单纯增加数据量并不一定能提升模型质量,还需要获取更高质量的特征。这就需要重新评估现有数据,深入分析哪些特征最为重要,然后对这些特征进行重新设计或创建新特征,同样也很耗时。
2. 选择另一个模型 :即使用完全不同但仍符合用例的算法构建全新的模型。例如,可以考虑使用其他基于监督学习的回归算法。不同的算法可能需要对数据进行重构,以适应其输入要求。比如选择梯度提升回归算法(如XGBoost),就要求目标标签位于数据集的第一列。选择新算法并重新处理数据也需要额外的时间。
3. 调整现有模型 :在构建现有神经网络模型时,编译过程中配置了一些可调整的参数,如优化器和损失函数;训练时也提供了其他可调整参数,如训练轮数和批量大小。不过,选择正确的调整选项并没有最佳实践,每次迭代都是一次实验,目的是从实验中获取更多信息,以确定下一步行动或选项。
端到端机器学习流程与自动化方案
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



