数据来源于Kaggle数据集,链接:https://www.kaggle.com/Cornell-University/arxiv
00、前言
这是Datawhale第二十一期组队学习的第一次正式打卡,因此简单整理了一下优快云博客的撰写方法,可供参考:新手如何撰写优快云博客?优快云博客撰写入门级方法
一、原理介绍
饼状图是数据可视化中的一种基本图形,常用于展示某一分类变量中各个类别所占的比例。根据饼状图中各个扇形所占的角度大小,可以比较得出数量多的类别和数量少的类别。此外,分类变量可视化的图形还有树形图、玫瑰图、雷达图等。
这里通过绘制扇形图,来比较计算机各个方向发表论文数量的差异。
二、代码实现
#加载常用模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore") #过滤掉警告的意思
from pyforest import *
#读入数据
data=pd.read_csv("F:/data/paper_group.csv")
#查看数据前五行
data.head()
group_name | id | |
---|---|---|
0 | Physics | 38379 |
1 | Mathematics | 24495 |
2 | Computer Science | 18087 |
3 | Statistics | 1802 |
4 | Electrical Engineering and Systems Science | 1371 |
#设置画布大小
fig = plt.figure(figsize=(15,12))
explode = (0, 0, 0, 0.2, 0.3, 0.3, 0.2, 0.1)
#此处以id作为各类别的计数,group_name是类别的名称
plt.pie(data["id"], labels=data["group_name"], autopct='%1.2f%%', startangle=160, explode=explode)
plt.tight_layout()
plt.show()
三、结果解释
从扇形图可以看出,物理方向的论文数量最多,达到44.86%,其次是数学方向的论文,占比28.63%。由此可见,基础学科的论文产出数量是相对较高的。
相关阅读