离群点检测
离群点成因:数据来源于不同的类、自然变异、数据测量、收集误差
离群点分类:
分类标准 | 分类名称 |
从数据范围 | 全局离群点和局部离群点 |
从数据类型 | 数值型离群点和分类型离群点 |
从属性个数 | 一维离群点和多维离群点 |
离群点检测方法
离群点检测方法 | 方法描述 | 方法评估 |
基于统计 | 大部分基于统计的离群点检测方法是:构建一个概率分布模型,并计算对象符合该模型的概率,将具有低概率的对象视为离群点 | 前提是:知道数据服从何种分布,对高维数据,检验效果很差 |
基于邻近度 | 通常可在数据对象间定义邻近性度量,把远离大部分点的对象视为离群点 | 二维、三维的数据可做散点图观察,大数据不适用,对参数选择敏感,具有全局阙值,不能处理具有不同密度区域的数据集 |
基于密度 | 考虑数据集可能存在不同密度区域,离群点是在低密度区域中的对象 | 给出对象是离群点的定量度量,即使数据具有不同的区域很好处理,大数据集不适用,参数选择比较难 |
基于聚类 | 一种利用聚类检测离群点的方法是:丢弃远离其他簇的小簇。首先聚类所有对象,然后评估对象属于簇的程度 | 基于聚类 |