数据挖掘——数据预处理

1.多维度衡量数据质量

   正确性、完整性、一致性、时效性、可信度、可解释性

2. 数据清洗

补全缺失数据:专家补充完整、自动填充(UNKNOWN、均值、众数、根据其他属性取样本均值等

平滑噪声数据(随机错误、技术限制等):装箱、回归、人机结合、聚类识别并移除异常数据

识别移除异常数据:利用属性元数据(如身份证号码的限制等)

解决数据不一致性、缺省值

3. 数据集成

合并多个/种数据集

数据冗余:计算属性间的相关性,卡方分析(名词型属性)、相关系数分析(这里有个公式,等于0无关,大于0正相关,小于0负相关)

检测并解决数据冲突

4. 数据简化

降维:小波变换、PCA、特征子集抽取、特征创建等

减少数据量:直方图、聚类、采样、数据方块、回归分析(将数据转换成模型参数)等

数据压缩:字符串压缩、视频/音频压缩

5. 数据转换

归一化、离散化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值