认识数据
对于含有标称属性的数据对象的相似性度量方式:计算匹配数或者采用特定的编码,如01,这样转化为计算编码之间的
数据预处理技术
数据清理:处理缺失值
,清除数据中的噪声
数据集成:多个数据源合并成一个一致的数据存储,即数据仓库
数据归约:通过聚集、删除冗余特征或聚类降低数据规模,包括数据规约和维规约
数据变换:如规范化,将数据压缩到较小区间,还有数据离散化、概念分层
本文探讨了数据预处理的关键步骤,包括数据清理中的缺失值处理及噪声清除、数据集成的过程与目标、通过聚集和删除冗余特征进行数据归约的方法、以及数据变换中的规范化、离散化等技术。
对于含有标称属性的数据对象的相似性度量方式:计算匹配数或者采用特定的编码,如01,这样转化为计算编码之间的
数据清理:处理缺失值
,清除数据中的噪声
数据集成:多个数据源合并成一个一致的数据存储,即数据仓库
数据归约:通过聚集、删除冗余特征或聚类降低数据规模,包括数据规约和维规约
数据变换:如规范化,将数据压缩到较小区间,还有数据离散化、概念分层
839

被折叠的 条评论
为什么被折叠?