python训练营day7

#用新的数据集复习一下

#用一个新的数据集复习前面所学内容
#使用平均值填充空值
import pandas as pd
data=pd.read_csv('heart.csv')#导入
c=data.columns.tolist()#遍历整个表时,需要列名进行操作,改成pythonlist格式更好
for i in c:#i是列名,不然应该是'Annual Income'这种
    if data[i].dtype !='object':
        if data[i].isnull().sum()>0:
            mean=data[i].mean()
            data[i].fillna(mean,inplace=True)
data.isnull().sum()

# 找到离散变量
discrete_lists = [] # 新建一个空列表,用于存放离散变量名
for discrete_features in data.columns:
    if data[discrete_features].dtype == 'object':
        discrete_lists.append(discrete_features)
data = pd.get_dummies(data, columns=discrete_lists, drop_first=True)# 离散变量独热编码 
data.columns
#找到新特征名
# 对比独热编码前后的列名 
data2 = pd.read_csv("data.csv")
list_final = [] # 新建一个空列表,用于存放独热编码后新增的特征名
for i in data.columns:
    if i not in data2.columns:
       list_final.append(i) # 这里打印出来的就是独热编码后的特征名
list_final
#对bool值进行转换便于增加兼容性
for i in list_final:
    data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名
data.head()
# 用均值填补,循环遍历这个列表中的每一列
for i in data.columns:
    if data[i].isnull().sum() > 0: # 找到存在缺失值的列
        #计算该列的均值
        mean_value = data[i].mean()
        #用均值填充缺失值
        data[i].fillna(mean_value, inplace=True)
 
data.isnull().sum()

@浙大疏锦行 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值