打卡第四天

day4
初识pandas库与缺失数据的补全
按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值

  1. 打开数据(csv文件、excel文件)
import pandas as pd
data = pd.read_CSV(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
data2 = pd.read_excel(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.xlsx')
  1. 查看数据(尺寸信息、查看列名等方法)
data.info()列名,非空值,数据类型
data.columns()所有列名
data.shape()行列
data.describe()每列值的分布,平均值,最值总数,标准差等
data.dtype()数据类型
data.insnull()空值
  1. 查看空值
data.isnull().sum()
求出空值和
  1. 众数、中位数填补空缺

过程 获取数据 查看数据类型 计算中位数并赋值 方法填补  检查是否还有空缺

data['Annual Income']
type data['Annual Income']
median_income = data['Annual Income'].median()
median_income
data['Annual Income'].fillna(median_income,inplace = Ture)
data.isnull().sum()

过程 重读数据  用方法获取数据 保留第一个众数 添补 检查

import pandas as pd
data = pd.read_CSV(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
mode = data['Annual Income'].mode()
mode = mode[0]
data['Annual Income'].fillna(mode)
data['Annual Income'].sum()

 

  1. 利用循环补全所有列的空值

过程 获取数据 数据类型 tolist方法将numpy数组和pandas对象转化为list  赋值 列表  for循环遍历列表找到数值型列 找到缺失值列 计算均值 填补 检查

data.columns
type(data.columns)
import numpy as np
a = np.arry([1,2,3])
a.tolist()
c = data.columns.tolist()
type(c)
for i in c;
   if data[i] != 'object':
       if data[i].isnull().sum() > 0:
       mean_vaule = data[i].mean()
       data[i].fillna(mean_vaule,inplace = Ture)
data[i].isnull().sum()

打个for循环要吐了,最终没有赶上末班车。

哎,无论如何今天任务也是扎扎实实完成了,这里@浙大疏锦行

完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值