软件工程中的机器学习基础全面解析
1. 数据预处理
数据预处理是机器学习流程中的关键步骤,主要工作是保证数据质量,通常会耗费大量精力。它主要分为数据准备和数据缩减两个部分,同时自然语言处理(NLP)方法也在文本数据预处理中发挥着重要作用。
1.1 数据准备
数据准备工作在几乎所有应用中都是必要的,目的是确保收集到的实例能代表真实观察结果,并且特定值能被机器学习算法轻松处理。若数据集准备不充分,算法可能会出现错误行为,导致结果不准确甚至错误。具体任务如下:
- 清洗 :目标是过滤特定实例值、处理缺失值以及检测因噪声导致的错误测量。对于缺失值,可采用插补方法,用估计值或代表值替代。噪声识别和纠正可能需要更复杂的方法,比如基于信号平滑的方法。
- 转换 :将实例值转换为新值,使学习过程更加一致和高效。像归一化和离散化等预处理任务也可视为数据转换的子任务,但由于它们执行特定操作且经常被应用,通常会单独定义。
- 集成 :将来自不同数据源的值组合起来,创建用于学习的实例。此过程中,可能需要识别和统一变量、去除重复值并检查可能的不一致性。
- 归一化 :统一或缩放实例值,确保它们处于特定范围内。例如,可将实例值转换为遵循正态分布。一些机器学习算法对变量规模敏感,此任务可防止每个特征的重要性出现偏差。
1.2 数据缩减
与数据准备不同,数据缩减任务的目标是减少用于学习的数据量,可在特征维度或实例维度上进行。即使不执行数据缩减任务,也能获得有效结果,但它能大大
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



