数据集
1.一般特性
a 维度 dimensionality b 稀疏性 sparsity c 分辨率 resolution
2 记录数据
a 事物数据或者购物篮数据 transaction data b 数据矩阵 data matrix or pattern matrix
3 数据质量
测试误差 measurement error 收集误差
噪音
精度、偏倚、准确率 precision、bias 、 accuracy
离群点 outlier
遗漏值
不一致的值
重复数据
预处理方法
1.聚集 数据合并
2.抽样 有放回、无放回 分层、渐进抽样(progressive sampling)
3.维归约
维灾难 维归约的线性代数技术: 主成分析 principle compenents Analysis PCA (用于连续属性、新的属性正相交), 奇异值分解(singular Value decomposition SVD)
4. 特征子集选择 嵌入方法 (熵)、 过滤方法(属性子集、评估、判断、last)、 包装方法(黑盒)
5.特征创建 -- 原来的属性创建新的属性集 特征提取-具体领域具体算法 映射数据到新的空间 特征构造 (多属性-一个属性 密度)
6 离散化和二元化(discretization binarization)
二元化 - 离散属性转化为 0 1
离散化:非监督离散化-(等频、等宽、) 监督离散-熵-
具有过多值的分类 根据值的相似性,合并一个大组
7.变量变化
简单函数
规范化和标准化
相似性和相异性的度量
1. 定义 相似度 similarity 相异度dissimilarity
jaccard洗漱
余弦相似
相关性:皮尔森相关 pearson correlation
总结:稠密、连续数据,通常采用距离度量。稀疏数据用词使用0-0匹配的相似性度量 余弦、jaccard
本文探讨了数据集的一般特性、记录数据形式及数据质量问题,并介绍了六种数据预处理方法,包括聚集、抽样、维归约、特征子集选择、特征创建以及离散化和二元化。此外还讨论了变量变化和相似性度量等问题。
1209

被折叠的 条评论
为什么被折叠?



