一、目标:对文件夹中所有的表格进行操作并绘图
我随机生成了一些关于医院接种某种疫苗的表格数据(取了一些很随便的文件名),并且对此进行分析
表格如下:
每张表格内容大致如下:
实现:汇总所有表格的总人数,年龄在18-30的人数,对每张表格的打2针和3针的人数进行绘图等
二、此次操作主要用到pandas, os, matplotlib,numpy库
整体代码如下:
import pandas as pd
import os
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
path = r'D:\python表格练习'
Filelist = []
fileall=[]
Age1830=0
finsh=0
three=0
for home, dirs, files in os.walk(path):
for filename in files:
fileall.append(os.path.join(home, filename))# 文件名列表,包含完整路径
Filelist.append(filename) # # 文件名列表,只包含文件名
for i in range(0,len(Filelist)):
sheet1= pd.read_excel(fileall[i])
# print(fileall[i])
data_age = sheet1[sheet1['年龄'] >= 18][sheet1[sheet1['年龄'] >= 18 ]['年龄'] < 30]#筛选年龄大于等于18且小于30的
age_18_30=len(data_age)
Age1830=age_18_30+Age1830
data_2jizhen=sheet1[sheet1['共需打几针'] ==2]#筛选打针列
data_3jizhen=sheet1[sheet1['共需打几针'] ==3]
three=three+len(data_3jizhen)
data_3yida=sheet1[sheet1['已打几针'] ==3]
ydw=len(data_3yida)+len(data_2jizhen[data_2jizhen['打了几针']==2])
finsh=finsh+ydw
#print("年龄在18-30的人数:",age_18_30,'\n','打3针的人数:',len(data_3jizhen),'\n','打完的人数:',ydw)
data_age.to_excel(str('D:\python生成表格\\'+Filelist[i]+'年龄18-30.xlsx'))
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
# 中文乱码问题
data1 = [len(data_2jizhen), len(data_3jizhen)]# 设置画布大小
plt.pie(data1, labels=['打两针的人', '打三针的人'])
plt.title("2针和3针比例" + str(i + 1))
#plt.figure(figsize=(17, 9), dpi=80)
plt.savefig(str('D:\python生成饼图\\'+Filelist[i]+'打针统计.jpg'), dpi=300)
print("已完成表格数量:"+str(i+1))
print(" 年龄在18-30的总人数:",Age1830,'\n','打3针的总人数:',three,'\n','打完的总人数:',finsh)
print("程序完成")
生成的表格与对应饼图:
三、代码分段结构
1.导入所需的库
import pandas as pd
import os
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
2.读取文件
for home, dirs, files in os.walk(path):
for filename in files:
fileall.append(os.path.join(home, filename))# 文件名列表,包含完整路径
Filelist.append(filename) # # 文件名列表,只包含文件名
3.对读入的内容进行分析
for i in range(0,len(Filelist)):
sheet1= pd.read_excel(fileall[i])
# print(fileall[i])
data_age = sheet1[sheet1['年龄'] >= 18][sheet1[sheet1['年龄'] >= 18 ]['年龄'] < 30]#筛选年龄大于等于18且小于30的
age_18_30=len(data_age)
Age1830=age_18_30+Age1830
data_2jizhen=sheet1[sheet1['共需打几针'] ==2]#筛选打针列
data_3jizhen=sheet1[sheet1['共需打几针'] ==3]
three=three+len(data_3jizhen)
data_3yida=sheet1[sheet1['已打几针'] ==3]
ydw=len(data_3yida)+len(data_2jizhen[data_2jizhen['打了几针']==2])
finsh=finsh+ydw
#print("年龄在18-30的人数:",age_18_30,'\n','打3针的人数:',len(data_3jizhen),'\n','打完的人数:',ydw)
data_age.to_excel(str('D:\python生成表格\\'+Filelist[i]+'年龄18-30.xlsx'))
此处主要使用了pandas中读excel的库pd.read_excel
4.绘制饼图
plt.rcParams['font.family'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
# 中文乱码问题
data1 = [len(data_2jizhen), len(data_3jizhen)]# 设置画布大小
plt.pie(data1, labels=['打两针的人', '打三针的人'])
plt.title("2针和3针比例" + str(i + 1))
#plt.figure(figsize=(17, 9), dpi=80)
plt.savefig(str('D:\python生成饼图\\'+Filelist[i]+'打针统计.jpg'), dpi=300)
print("已完成表格数量:"+str(i+1))