训练AI的数据处理(数据预处理)是整个机器学习 pipeline 中最关键、最耗时的一环,直接决定了模型的性能上限。俗话说“垃圾进,垃圾出”,再先进的模型架构也无法从低质量数据中学到高质量的模式。
数据预处理是一个系统性的工程,主要可以分为以下六大步骤:
一、 数据收集与评估
这是所有工作的起点。
-
数据来源: 确定数据来自哪里(网络爬虫、公共数据集、公司内部日志、用户生成内容、合成数据等)。
-
数据规模初步评估: 数据量是否足够?深度学习通常是“数据饥渴”的。
-
领域相关性评估: 数据是否与你要解决的任务高度相关?用金融数据训练出的模型很难在医疗领域表现良好。
二、 数据清洗
这是最基础的一步,目的是“去芜存菁”,解决数据中的错误和不一致。
-
处理缺失值:
-
删除: 如果某条数据缺失严重,直接删除该条数据。
-
填充: 用平均值、中位数、众数或通过模型预测进行填充。
-
标记: 将缺失本身作为一种特征,标记为“有值”或“缺失”。
-
-
处理异常值:
-
检测: 使用统计方法(如Z-score、IQR)或可视化(箱线图)来识别异常值。
-
处理: 根据业务逻辑决定是删除、修正
-

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



