背诵部分
数据清洗的概念
数据清洗主要是去除原始数据中的无关数据、重复数据,平滑噪声序列,剔除与挖掘建模主题无关的数据, 对缺失值和异常值进行处理
数据处理主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
缺失值处理的主要方法并举出四个例子
处理缺失值主要有三种方法:删除记录、数据插补和不处理
数据插补主要有众数/中位数/均值插补、使用固定值插补、最近临插补、回归方法、插值法
其中插值法主要有拉格朗日插值、牛顿法插值、hermite插值、分段插值、样条插值法
异常值的概念以及异常值分析的方法
异常值又称为离群点,是一个数据对象,其远远偏离于其他数据对象,好像它是由另外一种机制产生的一样。异常值处理的方法有:不处理、视为缺失值处理、平均值修正(前后两个属性值的平均数)、删除记录
数据集成的概念
数据挖掘需要的数据往往存在于不同的数据源中,数据集成就是将不同的数据源中的数据归纳到同一个数据存储位置来
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是 将多个数据源合并存放在一个一致的数据存储位置中的过程
数据变换的概念
数据变换主要是对数据进行规范化处理,将数据转换为“适当的”形式以便于数据的分析与挖掘算法的应用
数据变换主要是对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要
规范化的概念
数据标准化是数据挖掘中的一项基础工作,将消除数据之间的量纲差异和取值范围差异的影响,将数据按照比例进行缩放,使其落在相应的区间内,便于进行综合分析
数据归约的概念
在大数据集上进行复杂的数据分析和挖掘需要很长时间。数据归约是产生更小且保持原数据完整性的新数据集,在归约后的数据集上进行分析和挖掘将提高效率
数据归约的意义:
少量且具有代表性的将大幅缩减数据分析和挖掘建模所需的时间
降低存储数据的成本
降低无效、错误数据对建模的影响,提高建模的确定性
属性归约的概念
属性归约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,从而提高挖掘建模的效率,降低计算成本。属性归约的目的是寻找最小属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
离群点的概念、成因、类型以及检测方法
离群点是一个数据对象,它显著不同于其他的数据对象,就好像它是由另外一种机制产生的一样
离群点的成因:数据来自于不同的类、自然变异、数据测量和收集误差
离群点的类型
- 数据范围:全局离群点、局部离群点
- 数据类型:数值离群点、分类离群点、
- 数据维度:一维离群点、多维离群点
离群点的检测方法:
- 基于统计的检测方法
- 基于邻近度的检测方法
- 基于密度的检测方法
- 基于聚类的检测方法
基于统计的检测方法有:基于模型的一元正态分布中的、混合模型的
基于聚类的检测方法:丢弃远离其他簇的小簇、基于原型的聚类,然后定义对象到簇的距离得到(离群点得分)判断是否为离群点