Python打卡训练营学习记录Day4

day4

初识pandas库与缺失数据的补全

按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值

  1. 打开数据(csv文件、excel文件)
  2. 查看数据(尺寸信息、查看列名等方法)
  3. 查看空值
  4. 众数、中位数填补空值
  5. 利用循环补全所有列的空值

完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯

#  1.打开数据(csv文件、excel文件)
import pandas as pd
data = pd.read_csv("data.csv")
# data.info() : 这是一个方法,用于打印 DataFrame 的简明摘要,包含数据的基本信息,如每列的非空值数量、数据类型、内存使用情况等。
data.info()
# data.shape : 这是一个属性,用于返回一个元组,包含 DataFrame 的行数和列数。例如, (100, 5) 表示 DataFrame 有 100 行和 5 列
data.shape
rows,columns = data.shape
print(f'行数:{rows}、n列:{columns}')
# data.columns : 这是一个属性,用于返回 DataFrame 的列名。列名是一个 Index 对象,包含了 DataFrame 中所有列的名称。
data.columns.tolist()
columns_name = data.columns.tolist()
# 当你在函数调用时使用 * 操作符,它会把可迭代对象(像列表、元组这类)拆分成一个个独立的参数。
print(f'列名:', *columns_name, sep = "\n")
# data.head(10) : 这是一个方法,用于返回 DataFrame 的前 n 行(默认为 5 行)。
data.head(10)
see = data.head(10)
print(f'前10行:\n', see)
# data.describe() : 这是一个方法,用于生成一个描述性统计摘要,包括每个数值列的计数、均值、标准差、最小值、25% 分位数、50% 分位数(中位数)、75% 分位数和最大值。
data.describe()
data_describe = data.describe()
print(f'数值列的基本统计量:\n', data_describe)
#查看数据的缺失值
data.isnull().sum()
data_isull =data.isnull().sum()
print(f'数据的缺失值:\n', data_isull)
# 补全缺失值
print(type(columns_name))
for i in columns_name:
    if data[i].dtype != object:
        if data[i].isnull().sum() > 0:
            mean_value =data[i].mean()
            data[i].fillna(mean_value,inplace=True)
print(f'数据的缺失值:',data.isnull().sum())

@浙大疏锦行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值