python 数据预处理

1.缺失值填充

import numpy as np
import pandas as pd

df = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3],
                   'b': [4, 6, np.nan, 6, 2, 7, np.nan, 3, 5],
                   'c': [np.nan, 8, 2, 4, np.nan, 7, 6, 3, 5]})
print(df)
df['b'].fillna(df['b'].mean(), inplace=True)  # 均值填充
df['c'].fillna(df['c'].median(), inplace=True)  # 中位数填充
print(df)

2.oneHot编码

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder

df = pd.DataFrame({'a': [4, 2, 2, 1, 3, 2, 4, 2, 1],
                   'b': ['a', 'd', 'c', 'b', 'b', 'a', 'a', 'd', 'b']})
print(df)

b = LabelEncoder().fit_transform(df['b'])
b_onehot = pd.DataFrame(OneHotEncoder(sparse=False).fit_transform(b.reshape(len(b), 1)))
df = pd.concat([df, b_onehot], ignore_index=True, axis=1)
print(df)

3.数据归一化

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler

df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6, 7, 8, 9],
                   'b': [4, 3, 5, 3, 2, 4, 2, 1, 5]})
scaler = StandardScaler()
print(scaler.fit_transform(pd.DataFrame(df['a'])))

min_max_scaler = MinMaxScaler()
print(min_max_scaler.fit_transform(pd.DataFrame(df['a'])))

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值