Python打卡训练营学习记录Day4

最新推荐文章于 2025-12-03 12:28:21 发布

原创最新推荐文章于 2025-12-03 12:28:21 发布 · 218 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #学习 #开发语言

day4

初识pandas库与缺失数据的补全

按照示例代码的要求，去尝试补全信贷数据集中的数值型缺失值

打开数据（csv文件、excel文件）
查看数据（尺寸信息、查看列名等方法）
查看空值
众数、中位数填补空值
利用循环补全所有列的空值

完成后在py文件中独立完成一遍，并且利用debugger工具来查看属性（不借助函数显式查看）----养成利用debugger工具的习惯

#  1.打开数据（csv文件、excel文件）
import pandas as pd
data = pd.read_csv("data.csv")
# data.info() : 这是一个方法，用于打印 DataFrame 的简明摘要，包含数据的基本信息，如每列的非空值数量、数据类型、内存使用情况等。
data.info()
# data.shape : 这是一个属性，用于返回一个元组，包含 DataFrame 的行数和列数。例如， (100, 5) 表示 DataFrame 有 100 行和 5 列
data.shape
rows,columns = data.shape
print(f'行数：{rows}、n列：{columns}')
# data.columns : 这是一个属性，用于返回 DataFrame 的列名。列名是一个 Index 对象，包含了 DataFrame 中所有列的名称。
data.columns.tolist()
columns_name = data.columns.tolist()
# 当你在函数调用时使用 * 操作符，它会把可迭代对象（像列表、元组这类）拆分成一个个独立的参数。
print(f'列名：', *columns_name, sep = "\n")
# data.head(10) : 这是一个方法，用于返回 DataFrame 的前 n 行（默认为 5 行）。
data.head(10)
see = data.head(10)
print(f'前10行：\n', see)
# data.describe() : 这是一个方法，用于生成一个描述性统计摘要，包括每个数值列的计数、均值、标准差、最小值、25% 分位数、50% 分位数（中位数）、75% 分位数和最大值。
data.describe()
data_describe = data.describe()
print(f'数值列的基本统计量：\n', data_describe)
#查看数据的缺失值
data.isnull().sum()
data_isull =data.isnull().sum()
print(f'数据的缺失值：\n', data_isull)
# 补全缺失值
print(type(columns_name))
for i in columns_name:
    if data[i].dtype != object:
        if data[i].isnull().sum() > 0:
            mean_value =data[i].mean()
            data[i].fillna(mean_value,inplace=True)
print(f'数据的缺失值：',data.isnull().sum())

@浙大疏锦行