分类与预测:决策树归纳全解析
1. 分类与预测概述
分类和预测是数据分析中的重要任务。分类旨在将数据元组分配到预定义的类别中,而预测则是对连续值进行估计。例如,预测银行可以安全贷给申请人的金额。我们期望学习一个映射或函数,来建模输入变量 (X) 和输出变量 (y) 之间的关系。
1.1 数据预处理
为了提高分类或预测过程的准确性、效率和可扩展性,数据通常需要进行预处理,主要包括以下几个方面:
- 数据清洗 :去除或减少噪声,并处理缺失值。例如,使用平滑技术去除噪声,用属性最常出现的值或基于统计的最可能值替换缺失值。虽然大多数分类算法有处理噪声或缺失数据的机制,但这一步有助于减少学习过程中的混淆。
- 相关性分析 :数据中的许多属性可能是冗余的,通过相关性分析可以识别两个给定属性是否在统计上相关。例如,如果属性 (A1) 和 (A2) 之间存在强相关性,则可以考虑去除其中一个属性。此外,数据库中可能包含不相关的属性,属性子集选择可以找到一个缩减的属性集,使数据类的概率分布尽可能接近使用所有属性获得的原始分布。
- 数据转换和缩减 :数据可以通过归一化进行转换,特别是在学习步骤中使用神经网络或涉及距离测量的方法时。归一化将给定属性的所有值缩放到一个小的指定范围内,如 -1.0 到 1.0 或 0.0 到 1.0。此外,数据还可以通过泛化到更高级别的概念进行转换,例如将收入的数值泛化为低、中、高离散范围。数据还可以通过小波变换、主成分分析、分箱、直方图分析和聚类等方法进行缩减。
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



