机器学习的数据清洗与探索:全流程指南
1. 机器学习与数据工作的本质
在当今机器学习工具日益普及的时代,研究人员为数据分析所做的数据准备工作,如提取、转换、清洗和探索,其本质并未发生根本性的改变。回顾30年前进行多元分析时,我们对缺失值、异常值、变量分布形状以及变量之间的相关性的关注,与现在使用机器学习算法时的关注程度是一样的。尽管机器学习中广泛使用相同的库(如scikit - learn、TensorFlow、PyTorch等)确实促使方法更加统一,但良好的数据清洗和探索实践在很大程度上保持不变。
目前,我们对机器学习的讨论仍然非常侧重于算法,认为只要选择了正确的模型,就能获得改变组织的洞察力。然而,我们也需要重视从数据中学习的过程,就像过去几十年所做的那样。在这个过程中,从数据中做出预测、对数据中的关系进行建模以及对数据进行清洗和探索都是重要的环节。要使模型准确有效,不仅要仔细调整超参数,还需要从直方图或混淆矩阵中尽可能多地获取信息。
数据分析师和科学家的工作并非是从清洗到探索,再到预处理、建模和评估这样按部就班地进行。在整个过程的每一步,我们都会考虑潜在的模型,并定期更新之前的模型。例如,最初我们可能打算使用逻辑回归来建模一个特定的二元目标,但当看到特征分布时,可能会意识到至少应该尝试使用随机森林分类。在讲解相对常规的数据清洗任务时,我们也会讨论其对建模的影响,并且会在早期就探索使用机器学习工具来识别异常、填充缺失值和选择特征。
过去十年,数据分析师和科学家的工作流程发生了另一个变化,即减少了对单一模型的依赖,更接受模型构建是一个迭代的过程。一个项目可能需要多种机器学习算法,例如先使用主成分分析来降低维度(特征数量),然后使用逻辑回归进行分类。
超级会员免费看
订阅专栏 解锁全文
1081

被折叠的 条评论
为什么被折叠?



