数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析 ,地址:https://tianchi.aliyun.com/competition/entrance/531866/information
一、原理介绍
条形图是一种常见的基本统计图形,用于展示分类变量各个类别的数量。条形图又可以分为竖直条形图、水平条形图、堆叠条形图等。其中,水平条形图是一种将条形横向放置的条形图,通过比较不同类别条形的长短,可以直观地看出各类别数量上的差异。
这里通过绘制水平条形图,来展示计算机领域发表论文数量排名top10的作者。
二、代码实现
#加载常用模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore") #过滤掉警告的意思
from pyforest import *
#读入数据
data=pd.read_csv("F:/data/authors_names.csv")
#查看数据前五行
data.head()
0 | |
---|---|
0 | Pal Mahesh |
1 | Mokhov Serguei A. for the MARF R&D Group |
2 | Sinclair Stephen for the MARF R&D Group |
3 | Clément Ian for the MARF R&D Group |
4 | Nicolacopoulos Dimitrios for the MARF R&D Group |
a=data['0'].value_counts() #对分类变量的类别进行计数
# 根据作者频率绘制直方图
plt.figure(figsize=(10, 6)) #设置画布大小
a.head(10).plot(kind='barh',color='r')
#head(10)指定显示数量前10的类别,kind='barh'设定条形图的种类为水平条形图,color='r'设置图片颜色为红色
# 修改图配置
names = a.index.values[:10] #在图片中加上类别名称
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author') #设置y轴标签
plt.xlabel('Count') #设置x轴标签
三、结果解释
从水平条形图中可以看出,叫Tao Dacheng
的作者发文数量最多,为50篇,远领先于其他作者。同时可以发现,发文量前10的作者中,大多都是中文名字,这可以说明中国人在国际学术界的影响力了。
相关阅读