原文来自analyticsvidhya
作者是LAKSHAY ARORA
介绍
我在做数据科学项目时,涉及到预测特定商店中每种产品的销售情况。有几种方法可以解决这个问题。但无论我使用哪种方法,我的准确度都没有提高。我花了一些时间检查数据后才发现问题---异常值!
这是我们经常忽略的一个错误。根据您已有的数据立刻开始建立模型是很大的诱惑,但这实际上是让自己陷入失败。
数据探索没有捷径可走。如果您跳过数据科学项目的这个阶段直接构建模型只会让您到此为止。经过一段时间后,您将达到准确度的天花板,但模型的性能不会为此让步。
数据探索包括许多因素,例如变量识别,处理缺失值,特征工程等。检测和处理异常值也是数据探索阶段的主要部分。输入的质量决定了输出的质量!
PyOD是一个用于检测数据异常值的库。它提供20多种不同算法来检测异常值,并兼容Python 2和3,绝对是一颗宝石!在本文中,我将带您了解异常值以及如何使用Python中的PyOD检测异常值。
本文假设您具有机器学习算法和Python语言的基本知识。您可以参考这篇文章-“ 机器学习的基本知识 ”(链接请见文末),来理解或重温这些概念。
目录
1. 什么是异常值?
2. 为什么我们需要检测异常值?
3. 我们为什么使用PyOD进行异常值检测?
4. PyOD库的功能
5. 在Python中安装PyOD
6. PyOD中使用的一些异常值检测算法
7. PyOD提供的额外实用程序
8. 在Python中实现PyoD
什么是异常值?
异常值是在数据集中与其他观察值有很大差距的数据点。让我们看一些真实的例子来理解异常值检测:<