1.多维度衡量数据质量
正确性、完整性、一致性、时效性、可信度、可解释性
2. 数据清洗
补全缺失数据:专家补充完整、自动填充(UNKNOWN、均值、众数、根据其他属性取样本均值等
平滑噪声数据(随机错误、技术限制等):装箱、回归、人机结合、聚类识别并移除异常数据
识别移除异常数据:利用属性元数据(如身份证号码的限制等)
解决数据不一致性、缺省值
3. 数据集成
合并多个/种数据集
数据冗余:计算属性间的相关性,卡方分析(名词型属性)、相关系数分析(这里有个公式,等于0无关,大于0正相关,小于0负相关)
检测并解决数据冲突
4. 数据简化
降维:小波变换、PCA、特征子集抽取、特征创建等
减少数据量:直方图、聚类、采样、数据方块、回归分析(将数据转换成模型参数)等
数据压缩:字符串压缩、视频/音频压缩
5. 数据转换
归一化、离散化