数据可视化工具

最新推荐文章于 2025-09-15 14:56:59 发布

原创最新推荐文章于 2025-09-15 14:56:59 发布 · 5.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据可视化 #绘图工具

Matplotlib小记专栏收录该内容

8 篇文章

订阅专栏

http://blog.youkuaiyun.com/pipisorry/article/details/24833173

Python数据图表和绘图工具

Python 的科学栈相当成熟，各种应用场景都有相关的模块，包括机器学习和数据分析。数据可视化是发现数据和展示结果的重要一环，只不过过去以来，相对于 R 这样的工具，发展还是落后一些。

幸运的是，过去几年出现了很多新的Python数据可视化库，弥补了一些这方面的差距。matplotlib 已经成为事实上的数据可视化方面最主要的库，此外还有很多其他库，例如vispy，bokeh， seaborn， pyga， folium 和 networkx，这些库有些是构建在 matplotlib 之上，还有些有其他一些功能。

本文会基于一份真实的数据，使用这些库来对数据进行可视化。通过这些对比，我们期望了解每个库所适用的范围，以及如何更好的利用整个 Python 的数据可视化的生态系统。

我们在 Dataquest 建了一个交互课程，教你如何使用 Python 的数据可视化工具。如果你打算深入学习，可以点这里。

探索数据集

在我们探讨数据的可视化之前，让我们先来快速的浏览一下我们将要处理的数据集。我们将要使用的数据来自 openflights。我们将要使用航线数据集、机场数据集、航空公司数据集。其中，路径数据的每一行对应的是两个机场之间的飞行路径；机场数据的每一行对应的是世界上的某一个机场，并且给出了相关信息；航空公司的数据的每一行给出的是每一个航空公司。

首先我们先读取数据：

首先，我们使用 pandasapplymethod 计算每个名称的长度。它将找到每个航空公司的名字字符的数量。然后，我们使用 matplotlib 做一个散点图来比较航空 id 的长度。当我们绘制时，我们把 theidcolumn of airlines 转换为整数类型。如果我们不这样做是行不通的，因为它需要在 x 轴上的数值。我们可以看到不少的长名字都出现在早先的 id 中。这可能意味着航空公司在成立前往往有较长的名字。

我们可以使用 seaborn 验证这个直觉。Seaborn 增强版的散点图，一个联合的点，它显示了两个变量是相关的，并有着类似地分布。

1 2	data = pandas . DataFrame ( { "lengths" : name_lengths , "ids" : airlines [ "id" ] . astype ( int ) } ) seaborn . jointplot ( x = "ids" , y = "lengths" , data = data )

上面的图表明，两个变量之间的相关性是不明确的——r 的平方值是低的。

静态 maps

我们的数据天然的适合绘图-机场有经度和纬度对，对于出发和目的机场来说也是。

第一张图做的是显示全世界的所有机场。可以用扩展于 matplotlib 的 basemap 来做这个。这允许画世界地图和添加点，而且很容易定制。

.importBasemap

# Create a map on which to draw. We're using a mercator projection, and showing the whole world.

m = Basemap projection 'merc' llcrnrlat - , = , = 180 urcrnrlon 180 lat_ts 20 resolution 'c' .(.(,y=mlistairports"longitude".(),listairports"latitude".())

# Use matplotlib to draw the points onto the map.