import pandas as pd
import numpy as np
data = pd.read_csv("profess.csv")#读取数据
print(data)#输出数据
print(data.isnull().sum()) #输出缺失值
#数据清洗
data.dropna(inplace=True) #处理缺失值
print(data.isnull().sum())#再次输出缺失值信息
print(data) #再次输出数据集
#数据清洗,插补缺失值
#将Age列中为空的值替换为Age的中位数
#medain( )是pandas库中求中位数的方法
data['Age']=data['Age'].replace(np.NaN,data['Age'].median())#中位数插补处理缺失值
print(data['Age']) #输出插补之后的Age列
#数据归约
def section(d):
if 50000 > d:
return "50000以下"
if 100000 > d >= 5000:
return "50000-100000"
if d >=100000:
return "100000以上"
data['level'] = data['Salary'].apply(lambda x: section(x))
print(data['level'])
#数据变换
def convert_currency(d):
new_value = str(d).replace(",","").replace("$","") #数据格式变化
return float(new_value)
data['Salary'] = data['Salary'].apply(convert_currency)
# mean()是 pandas 库的求平均值的方法
data['Salary'] = data['Salary'].replace(np.NaN,data['Salary'].mean())
print(data)