day4
初识pandas库与缺失数据的补全
按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值
- 打开数据(csv文件、excel文件)
import pandas as pd
data = pd.read_CSV(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
data2 = pd.read_excel(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.xlsx')
- 查看数据(尺寸信息、查看列名等方法)
data.info()列名,非空值,数据类型
data.columns()所有列名
data.shape()行列
data.describe()每列值的分布,平均值,最值总数,标准差等
data.dtype()数据类型
data.insnull()空值
- 查看空值
data.isnull().sum()
求出空值和
- 众数、中位数填补空缺
过程 获取数据 查看数据类型 计算中位数并赋值 方法填补 检查是否还有空缺
data['Annual Income']
type data['Annual Income']
median_income = data['Annual Income'].median()
median_income
data['Annual Income'].fillna(median_income,inplace = Ture)
data.isnull().sum()
过程 重读数据 用方法获取数据 保留第一个众数 添补 检查
import pandas as pd
data = pd.read_CSV(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
mode = data['Annual Income'].mode()
mode = mode[0]
data['Annual Income'].fillna(mode)
data['Annual Income'].sum()
- 利用循环补全所有列的空值
过程 获取数据 数据类型 tolist方法将numpy数组和pandas对象转化为list 赋值 列表 for循环遍历列表找到数值型列 找到缺失值列 计算均值 填补 检查
data.columns
type(data.columns)
import numpy as np
a = np.arry([1,2,3])
a.tolist()
c = data.columns.tolist()
type(c)
for i in c;
if data[i] != 'object':
if data[i].isnull().sum() > 0:
mean_vaule = data[i].mean()
data[i].fillna(mean_vaule,inplace = Ture)
data[i].isnull().sum()
打个for循环要吐了,最终没有赶上末班车。
哎,无论如何今天任务也是扎扎实实完成了,这里@浙大疏锦行
完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯