1. 理解业务,根据业务目标确定评估标准,如Accuracy, Precision, Recall, running time等。评估标准将用于评估training set, test set 和 validation set。
2. 数据预处理(特征工程),数据清洗,数据补全,维度变换,提取有用特征,等。
3. 分割Train/test/validation(hold out) set, 对多个分布的数据,每个分布均提取train/test/validation set,保证train/test/validation set同分布。1M数据,分割比约为 Train : test : validation = 98% : 1% :1% 。
4. 确定同类问题判断(如分类问题)的人类水平,和理想情况下的贝叶斯最优误差。将人类水平分类为标准个人,标准专家,资深专家,资深专家组等,分析人类水平的bias和variance,目的是使accuracy大于人类水平。
5. 训练提升模型表现,使用更大模型,调参, regularization, 神经网络架构/参数调优,获取更多数据,模型融合等。
6. test set和validation set 评估模型并进行误差分析,清理错误数据,快速发布系统并迭代。
本文参考:
【1】 deep-learning spetializtion: structuring machine learning projects ------Deeplearning.AI