机器学习数据预处理之离群值/异常值：标准差法 Python

最新推荐文章于 2024-12-20 19:05:52 发布

前端设计家

最新推荐文章于 2024-12-20 19:05:52 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/TechCraze/article/details/133052644

Python 专栏收录该内容

98 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了在机器学习中如何使用Python的NumPy和Pandas库，通过标准差法来检测和处理数据集中的离群值。离群值可能由于测量错误等引起，对模型性能有负面影响。文章详细展示了计算均值和标准差，定义离群值阈值，以及删除和替换离群值的代码示例，强调了标准差法的适用性和局限性。

在机器学习数据预处理过程中，处理离群值或异常值是一个重要的步骤。离群值是指与其他观测值相比明显不同的数据点，可能是由于测量错误、数据录入错误或真实的极端情况导致的。这些离群值可能会对模型的性能产生不良影响，因此需要进行识别和处理。

一种常用的方法是使用标准差法来检测和处理离群值。该方法基于数据的分布情况，假设数据服从正态分布。下面我将详细介绍如何使用Python进行离群值的检测和处理。

首先，我们需要导入必要的Python库，包括NumPy和Pandas：

import numpy as np
import pandas as pd

接下来，我们创建一个示例数据集来演示离群值的检测和处理过程。假设我们有一个包含100个观测值的数据集：

np.random.seed(0)
d

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

前端设计家

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

机器学习数据预处理之离群值/异常值：MAD法（绝对值差中位数法）+绝对中位差（Median Absolute Deviation，MAD）

data+scenario+science+insight

08-26

5628

机器学习数据预处理之离群值/异常值：MAD法（绝对值差中位数法）+绝对中位差（Median Absolute Deviation，MAD） garbage in，garbage out. 异常值是分析师和数据科学家常用的术语，因为它需要密切注意，否则可能导致错误的估计。简单来说，异常值是一个观察值，远远超出了样本中的整体模式。 异常值在统计学上的全称是疑似异常值，也称作离群点(outlier)，异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”，数据值看起来异常大或异常小，其分布明显

机器学习预处理：识别并清除异常值（使用标准差法 python实现）

qq_37934722的博客

05-27

980

在正态分布中，大约 68% 的数据位于均值附近一个标准差的范围内，而 95% 的数据位于两个标准差的范围内。该函数接受一个数组类型的数据和一个标准差倍数（默认为 2），并返回处理后的数据。我们首先计算数据的标准差和均值，然后根据标准差倍数计算阈值（也就是上述理论中的两个标准差范围之外）。本文介绍了如何使用标准差法来检测和清除离群值。通过使用上面提供的 Python 代码，您可以轻松地从数据集中删除离群值，并获得更好的结果。在机器学习中，预处理数据是一个必要的步骤，因为异常值可能会对我们的模型产生负面影响。

参与评论您还未登录，请先登录后发表或查看评论

机器学习 | 非线性回归拟合数据时的离群值检测

最新发布

python收藏家的博客

12-20

1107

离群值检测是非线性回归分析的一个重要内容。通过采用目视检查，统计方法和鲁棒的回归技术相结合，研究人员可以确保准确可靠的参数估计。使用先进的方法，如ROUT方法和蒙特卡罗模拟能进一步提高了分析的鲁棒性。正确处理离群值会产生更值得信赖的模型和更好的基于数据的决策。

应用机器学习回归离群值处理

weixin_46287760的博客

03-03

771

有效处理异常值是构建强大的机器学习模型的关键步骤。在您的数据集上试验这些方法，并观察异常值是否会失去对您的机器学习工作的破坏性影响。异常值可能会破坏机器学习模型的运转，导致结果出现偏差并影响准确性。在这篇博文中，我们将深入研究应用机器学习领域，并探索使用 Python 识别和处理异常值的有效技。离群值是与数据集其余部分显着偏差的数据点。它们可能是错误、异常或仅仅是极端值的结果。我们将引入异常值，将其可视化，然后演示异常值处理如何影响简单线性回归模型的性能。我们将加载数据，识别异常值，并采用插补和截断方法。

常用去除离群值的算法！

dulingwen的博客

07-23

3万+

1.引言：数据预处理的方法主要包括去极值、标准化、中性化。那么这里介绍以下常用的去离群值的方法，所谓离群值就是异常值，这个和极值其实并不一样。常用的剔除离群值的方法有MAD、、百分位法。参考资料：数据预处理（上）之离群值处理、标准化、数据预处理（下）之中性化 2.MAD算法 MAD，即median absolute deviation，可译为绝对中位值偏差。其...

离群值处理方法

zjz199303的专栏

03-14

2万+

目录基于标准差（SD）法基于MAD的中心距离计算法1.基于标准差（Standard2Deviations, SD）法a为一组数的平均数，b为这组数的标准差，则超出[a-2b, a+2b]范围的值即被认为离群值。总结这种方法不是特别的靠谱，因为离群值的出现可能反过来很大程度影响平均数和标准差，所以平均数或者标准差受离群值的制约而使得这个检测方法不靠谱。2.基于绝对离差中位数（Median Absol...

数据预处理从入门到实战基于 SQL 、R 、Python.zip

03-03

1. **数据清洗**：数据预处理的第一步通常是数据清洗，包括处理缺失值（用平均值、中位数或众数填充，或者直接删除含有缺失值的记录）、异常值检测与处理（如识别并修正离群值），以及重复数据的处理。 2. **数据...

python数据整理规范形式_机器学习：数据预处理（清洗/集成/变换/规约）及Python实现...

weixin_39605345的博客

02-10

986

数据预处理主要包括数据清洗、数据集成、数据变换和数据规约四个部分。1. 数据清洗1.1 缺失值处理缺失值一般由NA表示，在处理缺失值时要遵循一定的原则。首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经验进行填补。一般来说当缺失值少于20%时，连续变量可以使用均值或中位数填补；分类变量不需要填补，单算一类即可当缺失值处于20%-80%之间时，填补方法同...

离群值/异常值的处理方法：MAD法与绝对中位差（Python实现）

BitSlinger的博客

09-05

1093

在实际应用中，除了标记离群值外，我们还可以选择删除离群值、替换为缺失值或使用其他插值方法进行填充，具体取决于数据集的特点和分析任务的要求。MAD法的基本思想是，假设数据服从一个稳定的分布，绝大多数的数据点应该位于中位数附近，而离群值的绝对中位差较大。通过设置适当的阈值，我们可以将超过阈值的数据点标记为离群值，并采取相应的处理策略。在示例代码中，我们生成了一个包含离群值的示例数据集，其中前1000个数据点服从均值为0、标准差为1的正态分布，后10个数据点服从均值为10、标准差为1的正态分布。

快速找到离群值的三种方法

deephub

09-24

5200

DBSCAN是一种密度聚类算法，也可用于检测离群值。它根据数据点的密度来识别离群值，将密度较低的点视为离群值。LOF是一种局部离群值因子方法，用于检测局部区域内的离群值。它考虑了每个数据点周围的局部密度与相邻点的密度之间的比率，从而识别离群值。Isolation Forest是一种基于随机森林的离群值检测方法，它通过构建树结构来识别离群值。由于使用了随机性，它对高维数据和大数据集非常有效。但是这些方法执行的速度会很慢，如果对于速度要求比较严格还是需要谨慎选择。

数据分析与挖掘（十九）------挖掘建模之离群点检测

sinat_36564972的博客

09-20

3423

一、引言就餐饮企业而言，经常会碰到如下问题。 1）如何根据客户的消费记录检测是否为异常刷卡消费？ 2）如何检测是否有异常订单？这类异常问题可以通过离群点检测来解决。离群点检测的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都是将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更大的研究价值。在上面的数据散布图中，离群点远离其他数据点。因为离群...

数据预处理-离群值检测与处理

ITLiu的博客

03-01

8932

@数据分析预处理 离群值检测回归 3σ法样本x和样本均值μ之间的距离，而且这个距离以标准差σ为单位进行计算：Z-score(x)=(x-μ)/σ 得到样本的Z-score值后，通常将满足条件|Z-score(x)|>3的样本视为离群值称为3σ法。箱线图是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断，适用范围广。箱线图由最大值、上四分位数（Q3）、中位数（Q2）、下四分位数（Q1）和最小值五个统计量

如何使用 Python 进行离群值/异常值检测：箱线图法

code_welike的博客

05-25

1072

其中，离群值/异常值的检测是很重要的一部分，因为这些值会对模型的准确性和健壮性造成不良影响。在本文中，我们将介绍如何使用 Python 中的箱线图法来检测离群值/异常值。在上述代码中，我们使用 numpy 中的 percentile 函数来计算数据的下四分位数和上四分位数，并进而计算四分位距和上下限。其中，前 150 个数据点为正常值，后 50 个数据点为离群值/异常值。在上述代码中，我们创建了一个大小为 5x8 的画布，并在其中绘制了数据的箱线图。将以上所有步骤组合在一起，我们得到的完整代码如下所示。

数据预处理-标准化

ITLiu的博客

03-01

1182

标准化数据分析及建模过程中，许多机器学习算法需要其输入特征为标准化形式。例如，SVM算法中的RBF核函数，线性模型中的𝑙1、𝑙2正则项，目标函数往往假设其特征均值在0附近且方差齐次；若样本的特征之间的量纲差异太大，样本之间相似度评估结果将存在偏差。常见数据标准化方法： Z-Score标准化 Min-Max标准化 1、Z-Score标准化 sklearn.preprocessing.StandardScaler preprocessing.StandardScaler( copy=True, #如果为

【python】数据挖掘分析清洗——离群点(异常值)处理方法汇总

weixin_47058355的博客

04-23

1万+

异常值处理的意义在于提高数据分析的准确性和可靠性。异常值往往会影响数据的统计特征，如平均值、方差等，从而导致错误的结论或预测结果。此外，异常值还可能干扰模型的拟合效果，使得模型对数据的解释能力变弱。因此，对于数据分析任务，我们通常需要进行异常值处理，以尽可能保证数据的质量和准确性。常用的异常值处理方法包括删除异常值、替换异常值、将异常值视为缺失值等。具体方法需要根据数据类型和任务要求来选择和实施。传送门。

机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测

热门推荐

Cyrus_May的博客

02-03

8万+

机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测摘要python实现代码计算实例摘要 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）为一种基于密度的聚类算法， python实现代码 eps：邻域半径（float） MinPts：密度阈值（int） .fit(X)：对待聚类的数据集进行聚类用法：指定邻域半径和密度阈值，这两个参数对应于不同的数据集需要进行调整，然后直接调用fit(X) 进行数据集的聚类。

【Dify】批量翻译自动化应用

Mr数据杨

07-11

3万+

本文介绍了Dify批量翻译工作流，旨在通过自动化工具提升多语种翻译效率。该工作流包含文件加载、文本分段、翻译处理、结果合并和文件保存五个核心节点，支持MBart和MarianMT等深度学习模型，实现文本自动分段、翻译和重构。适用于跨境电商、企业合同、新闻分发、教育资料和技术文档等场景，显著提升翻译速度和准确性。工作流通过智能体交互生成动态Prompt，确保翻译质量。用户只需准备源文件即可一键完成批量翻译，适合自学编程群体理解应用。更多开发文档可参考相关AIGC工具平台资源。

数据探索-离群值分析Python

Trb401012的博客

01-16

674

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。2.选择分析结果输出的文件夹位置。最后祝大家天天进步！

使用Python检测并删除离群值

python收藏家的博客

01-23

3227

离群值是一个数据项/对象，它明显偏离其余的（所谓的正常）对象。它们可能由测量或执行错误引起。离群点检测的分析被称为离群点挖掘。检测离群值的方法有很多，删除过程与从pandas的数据框中删除数据项相同。

python数据预处理

09-08

### 回答1：好的，我理解了你的要求。关于Python数据预处理，下面是我的回答： Python是一种非常流行的编程语言，也被广泛用于数据科学领域。在进行数据分析前，通常需要进行数据预处理，以确保数据质量和准确性。数据预处理的步骤通常包括数据清洗、数据转换、数据集成和数据归约等。其中，数据清洗是指对数据中的缺失值、异常值、重复值等进行处理；数据转换是指对数据进行标准化、规范化、离散化等处理；数据集成是指将多个数据源进行整合，形成一个完整的数据集；数据归约是指对数据进行降维处理，以便于后续分析。 Python提供了很多数据预处理的工具和库，比如NumPy、Pandas、Scikit-learn等，这些工具可以帮助我们更轻松地进行数据预处理和分析。以上就是我关于Python数据预处理的回答，希望对你有所帮助。 ### 回答2： Python数据预处理是指对原始数据进行清洗、转换、整理和加工的过程，以便进行后续的数据分析和建模。数据预处理是数据科学和机器学习中不可缺少的一环，其目的是提高数据的质量、减少错误和不确定性的影响，使数据更具可靠性和可用性。在Python中，有许多工具和技术可用于数据预处理。下面是几个常用的Python数据预处理方法： 1. 数据清洗：使用Python的数据处理库，如Pandas，可以删除重复值、处理缺失值、处理异常值和离群值等。可以使用drop_duplicates()函数删除数据中的重复值，使用dropna()函数处理缺失值，并使用isnull()和notnull()函数识别缺失值。 2. 数据转换：数据转换是将数据从一种形式转换为另一种形式。例如，可以使用Python中的函数将分类变量转换为数值表示，或使用独热编码（one-hot encoding）将分类变量转换为虚拟变量。 3. 特征缩放：特征缩放是将不同尺度的特征转换为统一的尺度。常见的特征缩放方法包括标准化（使用Z-score），归一化（将特征缩放到0-1范围）和正则化（将特征缩放到单位范数）。 4. 特征选择：特征选择是从原始数据中选择最相关或最有用的特征。可以使用Python中的特征选择库，如Scikit-learn，通过统计方法、特征重要性评估或正则化方法来选择特征。 5. 特征构造：特征构造是从现有特征中创建新的特征。可以使用Python中的函数和操作符来创建新的特征，例如计算两个特征的和、差或乘积。 6. 数据集划分：数据集划分是将原始数据集划分为训练集和测试集。可以使用Python中的库，如Scikit-learn，提供的函数和方法进行数据集划分，常见的划分方法包括随机划分和交叉验证。 Python的数据处理库和工具使得数据预处理变得更加简单和高效。通过将这些方法结合起来，可以提高数据预处理的速度和准确性，从而为后续的数据分析和建模提供可靠的基础。 ### 回答3： Python数据预处理是指在数据分析和机器学习过程中使用Python编程语言对原始数据进行清洗、转换和重塑的过程。数据预处理是数据分析的关键步骤，它可以帮助我们准备好的、适合用于建模和分析的数据集。首先，数据预处理可以包括数据清洗。在数据清洗过程中，我们可以处理缺失的数据、异常值和重复值。Python提供了丰富的库和函数，可以快速有效地进行数据清洗操作，如使用pandas库进行数据筛选、填充缺失值和删除异常值。其次，数据预处理还可以进行特征选择和特征变换。通过选择有意义的特征，可以提高模型预测的准确性和效率。Python中的scikit-learn库提供了多种特征选择方法，如方差阈值、相关性分析和递归特征消除等。另外，我们还可以对数据进行特征变换，如标准化、归一化和主成分分析等，以改善模型的性能。最后，数据预处理还可以进行数据集划分和数据集合并。在机器学习任务中，将数据集分成训练集和测试集是常见的操作，用于训练和评估模型。Python中的scikit-learn库可以很方便地进行数据集划分。此外，我们还可以使用pandas库对不同数据集进行合并，以便于进行进一步的分析和建模。总之，Python数据预处理是实现数据清洗、特征选择、特征变换和数据集操作的重要步骤。Python提供了丰富的库和函数，可以帮助我们高效地进行数据预处理，为后续的数据分析和机器学习任务提供可靠的数据基础。