pandas 画折线图_Pandas数据可视化的9个要点「附案例」

本文介绍了如何利用Pandas进行数据可视化,包括绘制折线图、条形图、饼图、散点图和箱型图,并提供了详细的代码示例。内容涵盖了数据导入、多y值绘制、图例、轴坐标刻度调整、图表保存和更多plot参数的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

d17e2917c4b219617b1ba570a5d517ca.gif

文末领取【数据可视化图表选择指南】

数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。

常见的数据可视化库有:

  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib。

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做:

  • 数据采集 如何批量采集网页表格数据?

  • 数据读取 pd.read_csv/pd.read_excel

  • 数据清洗(预处理) 理解pandas中的apply和map的作用和异同

  • 可视化,兼容matplotlib语法(今天重点)

在本文我们可以学到用pandas做:

  • 导入数据

  • 绘制最简单的图plot

  • 多个y的绘制图

  • 折线图、条形图、饼形图和散点图绘制

  • 统计信息绘图

  • 箱型图

  • 轴坐标刻度

  • plot更多精细化参数

  • 可视化结果输出保存

准备工作

如果你之前没有学过pandas和matpltolib,我们先安装好这几个库

!pip3 install numpy!pip3 install pandas!pip3 install matplotlib

已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子

#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天气数据df = pd.read_csv('data/london2018.csv')df
a0b59c2271bda28dc4775d1278588ca4.png

plot最简单的图

选择Month作为横坐标,Tmax作为纵坐标,绘图。

大家注意下面两种写法

#写法1df.plot(x='Month', y='Tmax')plt.show
2cb3521c09bb549f9b9113b897ac8fd1.png
  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax

折线图

上面的图就是折线图,折线图语法有三种

  • df.plot(x='Month', y='Tmax')

  • df.plot(x='Month', y='Tmax', kind='line')

  • df.plot.line(x='Month', y='Tmax')

df.plot.line(x='Month', y='Tmax')plt.show
adf5b256ba7518208229089b8ff16236.png
#grid绘制格线df.plot(x='Month', y='Tmax', kind='line', grid=True)plt.show
a6921bcffaee63d0290400c85ae1e0a4.png

多个y值

上面的折线图中只有一条线, 如何将多个y绘制到一个图中

比如Tmax, Tmin

df.plot(x='Month', y=['Tmax', 'Tmin'])plt.show
32b451334582a5d134791d6ea246ecbb.png

条形图

df.plot(x='Month', y='Rain', kind='bar')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show
acfc0b02a1f51d8f1e3414bf1453fd5a.png

水平条形图

bar环卫barh,就可以将条形图变为水平条形图

df.plot(x='Month', y='Rain', kind='barh')#同样还可以这样画#df.plot.bar(x='Month', y='Rain')plt.show
330facbd90584cdf0bcd22b2a1f2777a.png
  • 多个变量的条形图

df.plot(kind='bar', x = 'Month', y=['Tmax', 'Tmin'])plt.show
6ab071fcc1f263e5c328eebcf7d375cb.png

散点图

df.plot(kind='scatter', x = 'Month', y = 'Sun')plt.show
adfba8484457749046eb89664ba2cdd2.png

饼形图

df.plot(kind='pie', y='Sun')plt.show
8e2b210bc1315c8669d46fc2dc725a1c.png

上图绘制有两个小问题

  • legend图例不应该显示

  • 月份的显示用数字不太正规

df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']df.plot(kind='pie', y = 'Sun', legend=False)plt.show
24abef61ab69e86c8f31b3f644d13080.png

更多数据

一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据

import pandas as pddf2 = pd.read_csv('data/londonweather.csv')df2.head
70935f62829294fb32ba33dc80c63358.png
df2.Rain.describecount 748.000000mean 50.408957std 29.721493min 0.30000025% 27.80000050% 46.10000075% 68.800000max 174.800000Name: Rain, dtype: float64

上面一共有748条记录, 即62年的记录。

箱型图

df2.plot.box(y='Rain')#df2.plot(y='Rain', kind='box')plt.show
035272266e4865320fed7895ed9ce206.png

直方图

df2.plot(y='Rain', kind='hist')#df2.plot.hist(y='Rain')plt.show
4051680c45a8b969af0b5dc71d54893e.png

纵坐标的刻度可以通过bins设置

df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])#df2.plot.hist(y='Rain')plt.show
f91895fd1c0a6f268d1ec90689fe73e0.png

多图并存

df.plot(kind='line', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化 subplots=True, #多子图并存 layout=(2, 2), #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show
8449abea53ed823b41d37d649200f8f9.png
df.plot(kind='bar', y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化 subplots=True, #多子图并存 layout=(2, 2), #子图排列2行2列 figsize=(20, 10)) #图布的尺寸plt.show
ed5c61bde11f9c2cd04fc8a75a92098c.png

加标题

给可视化起个标题

df.plot(kind='bar', y=['Tmax', 'Tmin'], #2个变量可视化 subplots=True, #多子图并存 layout=(1, 2), #子图排列1行2列 figsize=(20, 5),#图布的尺寸 ) #标题plt.show
2949f6513577c91afb1cb8a33eab6666.png

保存结果

可视化的结果可以存储为图片文件

df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), )plt.savefig('img/pie.png')plt.show
bfb2cea15947151613e47b4b2e6d0b27.png

df.plot更多参数

df.plot(x, y, kind, figsize, title, grid, legend, style)

  • x 只有dataframe对象时,x可用。横坐标

  • y 同上,纵坐标变量

  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter

  • figsize 画布尺寸

  • title 标题

  • grid 是否显示格子线条

  • legend 是否显示图例

  • style 图的风格

查看plot参数可以使用help

import pandas as pdhelp(pd.DataFrame.plot)
526620a24580fc6e297c17998a4e41fc.png

End.

作者:大邓

来源:大邓和他的Python

本文为转载分享,如侵权请联系后台删除

长按下方海报领取【数据可视化图表选择指南】

Python的另类用法——抽象工厂模式

数据运营怎么做?数据分析如何驱动用户增长?

一篇文章读懂数据分析框架!

835eeb1dbf8d78baa7bbed865a801816.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值