1.数据预处理
导入包
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
导入数据(数据资源分享链接见文末)
data = pd.read_excel(r'数据.xlsx')
在Console查看导入的数据
data
因为原excel文件里还有其他信息,所以数据需要处理
处理数据
在Console查看data的数据类型:
type(data)
取Dataframe类型的数据的第一列:
data1=data.iloc[:,0]
统计数据个数:
发现少1个数(总共应该有50个数)
原来是第一个数4.1被当成了DataFrame的索引:
补充缺失的值4.1
先在Console查看data1的数据类型
type(data1)
补充Series的缺失值:
n=pd.Series([4.1])
data2=data1.append(n)
2.制作频数分布表
将data2分为5个区间(0, 3],(3, 6],(6, 9],(9,12],(12,15]:
a=pd.cut(data2,[0,3,6,9,12,15], labels=[u"(0,3]",u"(3,6]",u"(6,9]",u"(9,12]",u"(12,15]"])
在Console查看a:
......
计算频数
b=a.value_counts()
在Console查看b:
按照b的索引升序排序

本文介绍了如何使用Python进行数据预处理,并通过pandas、matplotlib和seaborn库制作频数分布表和绘制频数分布图。首先,导入所需库,加载数据,处理缺失值。接着,使用pd.cut创建数据区间,计算各区间频数,然后通过seaborn的barplot绘制条形图。最后,设置图表样式和保存图像。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



