数据挖掘、数据分析——异常值处理、归一化处理

文章讲述了在数据预处理阶段如何进行异常值分析和处理,通过读取数据并进行可视化展示,识别并删除超出阈值范围的异常数据。接着,文章介绍了数据的归一化处理,使用sklearn的MinMaxScaler将数据缩放到[0,1]区间,以简化后续计算并便于不同尺度特征的比较。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据:

# 下载需要用到的数据集
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_test.txt
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_train.txt

数据异常值分析

  • 在数据清洗阶段,需要对异常值进行处理,根据实际需求异常值可以:删除(抛弃)或者标注保留。
  • 将所有数据进行分析,设置阈值范围,当数据超过某个阈值范围设定为该数值处于异常情况。将需要处理的数据进行可视化展示,代码如下所示。我们将数据的正常值范围设定为-7.5-7.5,超过该阈值范围的数据即为异常数据。
# 导入数据分析工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

import warnings

warnings.filterwarnings("ignore")

# 读取数据
train_data_file = "./zhengqi_train.txt"
test_data_file = "./zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

#异常值分析
plt.figure(figsize=(18, 10))
plt.boxplot(x=train_data.values,labels=train_data.columns)
plt.hlines([-7.5, 7.5], 0, 40, colors='r')
plt.show()

可视化结果:
从图中可以明显看出来,一些非-7.5-7.5之间的数据也就是异常数据。
在这里插入图片描述

异常数据处理:

  • 针对异常数据,这里采取删除的形式。
## 删除异常值
train_data = train_data[train_data['V9']>-7.5]
train_data.describe()

数据的归一化处理:

归一化的作用:

  • 将数据映射到指定的范围,便于数据的计算处理。
  • 把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。经过归一化后,将有量纲的数据集变成纯量,还可以达到简化计算的作用。

归一化使用的方法:

  • 归一化一般将数据范围订到定为[0,1]或者[-1,1]区间,也可以自行定义。
  • 这里的归一化处理采用的是sklearn的min_max_scaler来进行归一化处理,将带归一化数据进行获取后,将数据分为归一化[0,1]之间。

from sklearn import preprocessing 

features_columns = [col for col in train_data.columns if col not in ['target']]

min_max_scaler = preprocessing.MinMaxScaler()

min_max_scaler = min_max_scaler.fit(train_data[features_columns])

train_data_scaler = min_max_scaler.transform(train_data[features_columns])
test_data_scaler = min_max_scaler.transform(test_data[features_columns])

train_data_scaler = pd.DataFrame(train_data_scaler)
train_data_scaler.columns = features_columns

test_data_scaler = pd.DataFrame(test_data_scaler)
test_data_scaler.columns = features_columns

train_data_scaler['target'] = train_data['target']
train_data_scaler.describe()

test_data_scaler.describe()


在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值