1.数据类型
·属性:对象的性质或特征。
·测量表度:将数值或符号之与对象的属性相关联的规则(函数)。
·属性类型:分类的(categorical)/定性的(qualitative):标称(nominal)(二元)、序数(ordinal)
定量的(quantitative)/数值的(numeric):区间(interval)、比率(ratio)。
·数据集的特征:维度、稀疏性(零/非零)、分辨率(注:精度)。
·数据集的类型:记录数据(实物数据/购物篮数据、数据矩阵、稀疏数据矩阵)、基于图形的数据(带有对象之间联系的数据、具有图形对象的数据)、有序的数据(时序数据、序列数据、时间序列数据)。
2.数据质量
·数据挖掘的两个目标:数据质量问题的检测和纠正、使用可以容忍低质量数据的算法。
·测量误差、噪声和伪像
·精度(precision)、偏倚(bias)、准确率(accuracy)
·离群点(异常)、遗漏值(删除数据对象或属性、估计遗漏值、在分时忽略遗漏值)、不一致的值、重复数据。
3.数据可视化
基于像素的可视化技术(颜色深浅)、几何投影可视化技术(多维度不同符号)、基于图符的可视化技术(画画)、层次可视化技术(更高维分层次)、可视化复杂对象和关系(图)
4.数据预处理
· 数据质量的因素(3+3):准确性、完整性、一致性。时效性、可信性、可解释性
· 主要任务/步骤:数据清理data cleaning、数据集成data integrations、数据规约data reduction、数据变换data transformation。
· 数据清洗有多种方法,最常用的是使用最可能的值填充缺失值,比如回归、贝叶斯方法、决策树等。
· 数据集成:实体识别问题、冗余和相关分析(标称数据:卡方检验;数值数据:Pearson积矩关系、协方差)、元组重复、数据值冲突的检测与处理。
*相似度与相异度:距离。相似系数、简单匹配系数、Jaccard系数;余弦相似度;广义Jaccard系数,相关性。邻近度(Mahalanobis距离)
· 数据规约:策略:维归约(减少属性个数)、数量规约(采用较小的表现形式)、数据压缩(变换);抽样(自适应的)。
小波变换、主成分分析、属性子集选择(向前/向后)、回归和对数线性模型:参数化数据规约、直方图、聚类、抽样、数据立方体聚集。
· 数据变换与数据离散化:策略:光滑(去掉噪音)、属性构造(添加新属性)、简单函数、聚集、规范化、离散化(用区间代替、二元化)、由标称数据产生概念分层()
969

被折叠的 条评论
为什么被折叠?



