python - 数据预处理

本文探讨了数据预处理的重要性,特别是在机器学习中,数据质量和数量对模型性能的影响。强调了数据清洗作为预处理的核心环节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

重要:数据和特征决定了机器学习的上限,而模型和算法无限接近这个上限。(数据的质量和数量更应重视)

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np


df = pd.read_csv("./HR.csv", header=0)
summary = df.describe()

## 空值的判断
df.isnull()

### 空值的处理
df = df.dropna(subset=["satisfaction_level","last_evaluation"], how="any")

##四分位数去异常值
le_s = df['satisfaction_level']
q_low = le_s.quantile(q=0.25)
q_high = le_s.quantile(q=0.75)
q_interval = q_high - q_low
df = df[le_s<k*q_interval+q_high][le_s>k*q_interval-q_low]
df = df[df['salary']!='nme']


### 特征预处理
	## 归一化、标准化处理
df["satisfaction_level"] = MinmanScaler().fit_transform(df["satisfaction_level"].values.reshape(-1,1)).reshape(1,-1)[0]
df["satisfaction_level"] = StandardScaler().fit_transform(df["satisfaction_level"].values.reshape(-1,1)).reshape(1,-1)[0]


### 数值化
column_lst =["salary","department"]
df[column_lst[i]]=LabelEncoder().fit_transform(df[column_lst[i]])


### 降维
df.features = PCA(n_components=2).fit_transform(df.values)

...

 待续。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值