day4
初识pandas库与缺失数据的补全
按照示例代码的要求,去尝试补全信贷数据集中的数值型缺失值
- 打开数据(csv文件、excel文件)
- 查看数据(尺寸信息、查看列名等方法)
- 查看空值
- 众数、中位数填补空值
- 利用循环补全所有列的空值
完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯
# 1.打开数据(csv文件、excel文件)
import pandas as pd
data = pd.read_csv("data.csv")
# data.info() : 这是一个方法,用于打印 DataFrame 的简明摘要,包含数据的基本信息,如每列的非空值数量、数据类型、内存使用情况等。
data.info()
# data.shape : 这是一个属性,用于返回一个元组,包含 DataFrame 的行数和列数。例如, (100, 5) 表示 DataFrame 有 100 行和 5 列
data.shape
rows,columns = data.shape
print(f'行数:{rows}、n列:{columns}')
# data.columns : 这是一个属性,用于返回 DataFrame 的列名。列名是一个 Index 对象,包含了 DataFrame 中所有列的名称。
data.columns.tolist()
columns_name = data.columns.tolist()
# 当你在函数调用时使用 * 操作符,它会把可迭代对象(像列表、元组这类)拆分成一个个独立的参数。
print(f'列名:', *columns_name, sep = "\n")
# data.head(10) : 这是一个方法,用于返回 DataFrame 的前 n 行(默认为 5 行)。
data.head(10)
see = data.head(10)
print(f'前10行:\n', see)
# data.describe() : 这是一个方法,用于生成一个描述性统计摘要,包括每个数值列的计数、均值、标准差、最小值、25% 分位数、50% 分位数(中位数)、75% 分位数和最大值。
data.describe()
data_describe = data.describe()
print(f'数值列的基本统计量:\n', data_describe)
#查看数据的缺失值
data.isnull().sum()
data_isull =data.isnull().sum()
print(f'数据的缺失值:\n', data_isull)
# 补全缺失值
print(type(columns_name))
for i in columns_name:
if data[i].dtype != object:
if data[i].isnull().sum() > 0:
mean_value =data[i].mean()
data[i].fillna(mean_value,inplace=True)
print(f'数据的缺失值:',data.isnull().sum())