数据可视化----数据预处理

这篇博客介绍了数据预处理的重要步骤,包括检查并处理缺失值,用平均值填充天津地区的常住人口和GDP数据,删除北京数据的重复值,并通过绘制盒图展示并处理异常值。最后,将北京和天津数据合并成一个完整的数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# encoding:utf-8
# 数据预处理

# 读取数据
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

Font = FontProperties(fname="C:\Windows\Fonts\msyh.ttc")  # 字体

BJ_data = pd.read_csv('北京地区信息.csv', encoding='GBK')
TJ_data = pd.read_csv('天津地区信息.csv', encoding='GBK')

# 数据预处理
# 1. 判断有没有空值
# print(BJ_data.isnull())
# print(TJ_data.isnull().value_counts())
# 对缺失值进行填补,通常有三种方式:1.直接删掉 2.人工填补 3.不管
population1 = TJ_data['常住人口(万人)'].mean()
# 平均值填充, 还有拉格朗日,牛顿等插值方式进行填充
population2 = 81.60
GDP = TJ_data['GDP(亿元)'].mean()
values = {
    '常住人口(万人)': population2,
    'GDP(亿元)': GDP
} # 字典形式填充数据
TJ_data = TJ_data.fillna(value=values) # 使用fillna方法
# print(TJ_data.isnull().value_counts())
# 2.重复值处理
# print(BJ_data.duplicated()) # 判断是否有重复值,判断是否存在两行数据一致
BJ_data = BJ_data.drop_duplicates()
# print(BJ_data.duplicated())
# print(TJ_data.duplicated())
# 3. 异常值处理
# print(BJ_data)

# 盒图 上界,上四分位,中位数,下四分位,下界
BJ_data.boxplot(['户籍人口(万人)','男性','女性','GDP(亿元)','常住人口(万人)'])
plt.xticks(FontProperties=Font)
plt.show()
# 4. 数据合并
con_data = pd.concat([BJ_data,TJ_data],ignore_index=True) # ignore_index:是否重新组织索引
print(con_data)

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值