数据清洗
数据清洗主要是删除原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
缺失值处理
处理缺失值的方法可分为三类:删除记录、数据插补和不处理。常见的插补方法如下图所示。
| 插补方法 |
方法描述 |
| 均值/中位数/众数插补 |
根据依据属性值的类型,采用属性的均值/中位数/众数插补 |
| 固定值插补 |
数据预处理包括数据清洗、数据集成和数据变换。数据清洗涉及缺失值和异常值处理,如删除记录、数据插补。数据集成关注实体识别和冗余属性处理,确保实体一致性和数据质量。数据变换则对数据进行规范化,如最小-最大规范化、零-均值规范化和小数定标规范化,以适应不同应用场景。
数据清洗主要是删除原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
处理缺失值的方法可分为三类:删除记录、数据插补和不处理。常见的插补方法如下图所示。
| 插补方法 |
方法描述 |
| 均值/中位数/众数插补 |
根据依据属性值的类型,采用属性的均值/中位数/众数插补 |
| 固定值插补 |
2546

被折叠的 条评论
为什么被折叠?