dataframe 异常值处理

最新推荐文章于 2024-06-04 11:22:03 发布

转载最新推荐文章于 2024-06-04 11:22:03 发布 · 2.7k 阅读

9 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/zhuiqiuuuu/article/details/82721935

本文介绍了一种基于箱体图的异常值检测方法，通过计算四分位数和内距来确定异常值的阈值，进而从数据集中移除这些异常数据点，提高数据质量。

箱体处理异常值
转载自：https://blog.youkuaiyun.com/zhuiqiuuuu/article/details/82721935

import pandas as pd
import numpy as np
from collections import Counter

def detect_outliers(df,n,features):    
	print("开始处理异常值")    
	outlier_indices = []    
	for col in features:        
		Q1 = np.percentile(df[col], 25)        
		Q3 = np.percentile(df[col],75)        
		IQR = Q3 - Q1        
		outlier_step = 1.5 * IQR        
		outlier_list_col = df[(df[col] < Q1 - outlier_step) | (df[col] > Q3 + outlier_step )].index     
   		outlier_indices.extend(outlier_list_col)    
	
	outlier_indices = Counter(outlier_indices)
	multiple_outliers = list( k for k, v in outlier_indices.items() if v > n )    
	return multiple_outliers   

Outliers_to_drop = detect_outliers(data,0,['target_Kwh'])
data = data.drop(Outliers_to_drop,axis=0).reset_index(drop=True)

代码中n表示行异常的次数，即检查的行中，异常的column次数大于n，才被选定。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

陆勼

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用pandas replace函数替换DataFrame中的缺失值和异常编码值

qq_37934722的博客

04-27

567

在本文中，我们介绍了如何使用pandas的replace函数来替换DataFrame中的缺失值和异常编码值。我们可以使用pandas的replace函数来将缺失值（None）替换为numpy的NaN值。首先，我们需要导入pandas库和numpy库，并准备好一个包含缺失值和异常编码值的示例数据集。接下来，我们可以使用replace函数来将异常编码值（9999）替换为NaN值。在这个数据集中，我们有两个列A和B，其中包含有缺失值和异常编码值（9999）。我们可以看到，异常编码值也被成功地替换为NaN值了。

参与评论您还未登录，请先登录后发表或查看评论

对Dataframe中异常值检测求助

m0_45457305的博客

07-26

1851

对Dataframe中异常值检测求助背景主要需求目前随便用一组数的进展dataframe的进展背景工程中检测很多个阀门的开关，并且按照时间顺序对阀门进行排序。刚用python，纯小白，还请大家不吝赐教~~ 主要需求挑选出阀门开、关的电信号，并选择他相对应的时间，然后将所有的时间排序，因此能看出按照时间顺序的开关顺序。现在主要是想通过pandas里的dataframe来处理数据,CSV的数...

用3-sigma原则处理DataFrame中的异常值

wfj的博客

06-04

9697

自定义的两个函数定义一个对每一个特征（每一列）进行进行处理的函数，返回数值落在在（μ-3σ,μ+3σ)之外的行索引。只要有一个特征落在范围之外，则这一条样本被删除。 def three_sigma(Ser1): ''' Ser1：表示传入DataFrame的某一列。 ''' rule = (Ser1.mean()-3*Ser1.std()>Ser1) | (Ser1.mean()+3*Ser1.std()< Ser1) index = np.arange

Pandas DataFrame中对异常值的处理

热门推荐

jack的博客

06-06

2万+

一、前言相信大多数朋友们在使用Pandas读取Excel数据（如csv文件）时，表格中往往含有异常的值。这些异常值通过包括三大类： None，null，NaN。但是None和null通常可以通过“==”来判断，相对比较简单，因此本文主要介绍对NaN异常值的处理。众所周知，NaN其实指的是 Not A Number，也就是说不是一个数。二、判断是否含有 NaN 在Pandas DataFrame...

Pandas.DataFrame处理异常值的方法

Mark_Australia的博客

05-17

1495

pandas处理异常值方法

Pandas(第十六集：DataFrame异常值处理)

MMF博客园

05-11

1196

Pandas(第十六集：DataFrame异常值处理)

DataFrame中检测某行异常值

gao_的博客

11-04

2061

col = data[3] col[np.abs(col)>3] #某行绝对值大于3的数 data[(np.abs(data)>3).any(1)] #全部abs大于3的行和列，以下两种不可取 #data[np.abs(data)>3] #data[data>3] data[np.abs(data.ix[:,0])>3] #可用，里面的过滤条件需针对某一行...

数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

doingmorewithles的博客

09-30

3803

本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法，仅先从最基本数据清洗规则：重复值、缺失值、异常值处理角度入手进行讨论，其余部分内容将在后期进行说明注：本文讨论内容基于Python语言，处理对象为常规pandas读取数据表格格式Dataframe。

python封装的异常值处理函数（包括箱线图去除异常值等）

12-21

这个封装的异常值处理函数对于数据预处理非常实用，可以方便地集成到数据分析工作流中，确保模型训练基于更可靠的数据。在实际应用时，需根据具体需求调整 `scale` 参数，以达到理想的异常值处理效果。

dataframe分组删除异常值，统计个数

qq_32649321的博客

05-12

1002

在创建一个含有多级索引的 DataFrame时，包含了两列名称都为 decyear 的列。然后，当访问其中一个 decyear 列，但是由于存在重名列，报错。

python异常值删除_如何从聚合的Dataframe(Python)中删除异常值？

weixin_39950764的博客

11-23

1370

我的原始数据就像这样，只有第一行：categories id products0 A 1 a1 B 1 a2 C 1 a3 A 1 b4 B 1 b5 A 2 c6 B 2...

去除缺失值和异常值

weixin_58180785的博客

07-16

362

# 拷贝sheet_datas new_sheet_datas = sheet_datas # sheet_datas是5个df组成的矩阵，sheet_datas[:-1]表示前4个df组成矩阵 # enumerate(list)返回下标和对应的元素 for index,each_data in enumerate(sheet_datas[:-1]): # new_sheet_datas[index] 表示 new_sheet_datas中下标为index的元素，在这里是一个datafr.

Pandas数据处理/drop_duplicates()/映射map()/replace()/rename()/分箱/过滤异常值/随机抽样take()/random.permutation()

Dorisi_H_n_q的博客

09-02

1301

1、删除重复元素使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt %matplot...

Dataframe去掉包含指定值的行

weixin_44070917的博客

09-17

928

python基础语句

DataFrame数据的处理多种方法

最新发布

小九啥也不会

06-04

1188

在Python中，DataFrame是pandas库中的一个核心数据结构，用于存储和操作二维的、大小可变且可以包含异质类型列的表格型数据。处理DataFrame数据时，你可以执行各种操作，包括数据清洗、转换、聚合、排序、筛选等。以下是一些常见的DataFrame。

pandas笔记（3）——DataFrame数据查看，缺失值，异常值，重复值预处理

weixin_44830542的博客

06-22

1万+

预览数据前n行 Python中预览数据可以使用head()函数，该函数默认展示前5行。 # 查看数据前2行 df.head(2) 获取数据表的行列数量在Python中获取数据表的行列数量，可以通过shape方法注：列表无法使用shape方法 # 获取表格的行列 df.shape 获取数据表的数据类型获取数据表的数据类型，可以使用info()方法。 # 查看数据类型 df.info() # 返回了所有列的数据类型 ''' <class 'pandas.core.frame.DataFram

python 归一化_数据预处理——标准化/归一化（实例）

weixin_39732316的博客

11-27

9007

这次我们来说说关于数据预处理中的数据标准化及归一化的问题。主要以理论+实例的方式为大家展示。本次实验也将会展示部分数据以及代码，有兴趣的小伙伴可以自己动手试试~在本次实例过程中，我们使用的数据是：2010-2018年间广州市经济与环境的时间序列资料，数据来源为《广州市统计年鉴》及《国民经济和社会发展统计公报》，感兴趣的同学也可利用其它数据进行实例操作。（本次实验的Excel数据附在文后）一、归一化...

Pandas必知必会 | 检测数据集中的异常值

小美哥的博客

02-02

7348

在数据集中如果某一个观察值不寻常地大于或者小于该数据集中的其他数据，我们则称之为疑似异常值。疑似异常值的存在，会对随后的计算结果产生不适当的影响，检测疑似异常值并加以适当的处理是十分必要的。一种经典的计算数据集中疑似异常值的方法是Tukey method。该方法先计算出数据集的四分之一分位数（Q1）和四分之三分位数（Q3），从而计算出四分位数间距（IQR），然后将小于Q1 - 1.5IQR或者大...