机器学习中的数据准备与处理
1. 学习系统的泛化问题
在机器学习中,学习系统可能会面临无法有效泛化的情况。当学习系统由于曲线与数据拟合不佳而表现不佳时,就出现了欠拟合问题。而当学习系统在新数据上表现不佳,但在训练数据上表现出色时,则是过拟合问题,这意味着系统学习了过多训练数据的特殊特征和异常情况。
为了防止过拟合,我们可以通过监控训练和验证性能,并使用正则化方法。同时,我们还探讨了偏差和方差与过拟合的关系,以及如何使用贝叶斯规则将直线拟合到有噪声的数据上。
2. 数据准备的重要性
机器学习算法的性能很大程度上取决于所使用的数据。在现实世界中,数据可能来自有噪声的传感器、有漏洞的计算机程序,甚至是纸质记录的不完整或不准确转录。因此,在使用数据之前,我们必须对其进行检查和修复。
数据准备,也称为数据清理,是一系列用于处理数据的方法,目的是使学习系统能够最有效地使用数据。我们还需要确保数据本身适合机器学习,这可能涉及调整数据,例如缩放数字或合并类别。
2.1 基本数据清理
基本数据清理的目标是确保数据没有空白、错误条目或其他错误。具体步骤如下:
- 文本数据检查 :确保文本数据没有排版错误、拼写错误、不可打印字符或其他损坏。例如,在处理动物照片的标签时,要保证每个长颈鹿的标签都是一致的,避免出现拼写错误或变体。
- 去除重复数据 :删除训练数据中的意外重复项,因为它们会扭曲我们对数据的理解,使学习器对某些样本的影响过大。
- 检查排版错误 :注意避免诸如遗漏
机器学习数据准备与处理详解
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



