数据挖掘模型——离群点检测——python代码

离群点检测

  离群点成因:数据来源于不同的类、自然变异、数据测量、收集误差

  离群点分类:

分类标准 分类名称
从数据范围 全局离群点和局部离群点
从数据类型 数值型离群点和分类型离群点
从属性个数 一维离群点和多维离群点

离群点检测方法

离群点检测方法 方法描述 方法评估
基于统计 大部分基于统计的离群点检测方法是:构建一个概率分布模型,并计算对象符合该模型的概率,将具有低概率的对象视为离群点 前提是:知道数据服从何种分布,对高维数据,检验效果很差
基于邻近度 通常可在数据对象间定义邻近性度量,把远离大部分点的对象视为离群点

二维、三维的数据可做散点图观察,大数据不适用,对参数选择敏感,具有全局阙值,不能处理具有不同密度区域的数据集

基于密度 考虑数据集可能存在不同密度区域,离群点是在低密度区域中的对象 给出对象是离群点的定量度量,即使数据具有不同的区域很好处理,大数据集不适用,参数选择比较难
基于聚类 一种利用聚类检测离群点的方法是:丢弃远离其他簇的小簇。首先聚类所有对象,然后评估对象属于簇的程度 基于聚类
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值