我是如何将 IPL 数据转化为令人着迷的条形图竞赛

原创于 2025-12-20 00:55:42 发布 · 651 阅读

15 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1071 篇文章

订阅专栏

原文：towardsdatascience.com/how-i-turned-ipl-stats-into-a-mesmerizing-bar-chart-race-9ba48084b0c0?source=collection_archive---------6-----------------------#2024-10-06

数据故事化中创建引人入胜的动画可视化的逐步指南

https://tezansahu.medium.com/?source=post_page---byline--9ba48084b0c0--------------------------------https://towardsdatascience.com/?source=post_page---byline--9ba48084b0c0-------------------------------- Tezan Sahu

·发表于 Towards Data Science ·阅读时间 8 分钟·2024 年 10 月 6 日

–

你是否曾在社交媒体上滚动时，被那些展示人口、公司，甚至是迷因股票涨跌的动画图表迷住了？

我知道我有过——像你们中的许多人一样，我一直对那些出现在社交媒体上的动画可视化着迷。你们知道的，就是那些迷人的条形图竞赛，展示人口增长，或是动态气泡图，说明人们如何度过一天的时间。我会一遍遍地看，惊叹于它们讲述的故事，哪怕没有一句话。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/64f37deb646449a419f1a1437fd9baec.png https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/64f2639860e97b871ca39093c0710930.png

动画图表的示例——条形图竞赛（左）和动态气泡图（右）

所以，我对自己说：“我们来试试创建一个吧！更棒的是，我们可以用低代码方式来实现！”

这里有个 confession：虽然我已经做了数据和应用科学家一段时间了，但直到最近，我才知道这些图表叫做“动画图表”，而这些特定类型的图表被称为“条形图竞赛”，等等。

在这篇文章中，我分享了如何勇敢尝试并创建了我的第一个惊艳的动画可视化。这是最终效果的一个小预览：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6c091cdc00fccd5e3806ad62633f4556.png

最终可视化的一部分（2020–24）（由作者创建）

为什么选择动画可视化？

在我们快节奏的数字世界中，吸引并维持观众注意力比以往任何时候都更加具有挑战性。动画可视化正是在此时大放异彩。它们可以：

以易于理解的格式传达复杂的趋势变化
激发观众的情感，使数据更加难忘
鼓励在数据集中进行探索和发现
简化向非技术观众传达关键信息

作为数据专业人士，紧跟这些强大叙事工具的步伐至关重要。让我们深入了解如何有效地利用这些工具。

那么，我该从哪里开始呢？

作为一名狂热的板球迷，我知道我想做一些与 印度超级联赛（IPL） 相关的事情。但我不想只做一个普通的可视化。我想做一些能让即便是最随意的板球迷也会惊叹的作品。

就在那时，我突然意识到：如果我能展示每支 IPL 球队随时间推移的胜利次数呢？ 那将是像在眼前展开整个 IPL 历史一样的体验！

在 Kaggle 上快速搜索让我发现了一个宝藏 —— 一个包含 2008 到 2024 年比赛结果的全面 IPL 数据集。我下载它的速度比 Jasprit Bumrah 的 yorker 还快，并将其保存为 ipl_matches_2008-2024.csv。

[## IPL 完整数据集 (2008-2024)

数据整理

当然，原始的 IPL 数据集远远没有达到这种格式，这意味着我有机会利用 GitHub Copilot 的强大功能来整理数据，并将其转换为所需的格式。

以下是我与 GitHub Copilot 进行的交互序列，帮助我将原始的 IPL 数据转换成所需格式（还包含一些有趣的 IPL 相关细节）：

第一步，我大致解释了数据集最初的格式，以及我希望最终表示的方式：

这是 GitHub Copilot 返回的结果：

我惊喜地发现，这段代码几乎第一次就正确了！所示过程很简单：

提取每场比赛的唯一日期和独特队伍后，初始化一个数据框，将队伍作为行，日期作为列。现在，遍历每个日期并执行以下操作：

筛选出截至当前日期的比赛
计算每支队伍的累计胜场
更新数据框架以显示累计胜场

唯一的问题是这段多余的代码——去掉它就解决了我的问题：

# Ensure cumulative sum
if date != unique_dates[0]:
    cumulative_wins.at[team, date] += cumulative_wins.at[team, unique_dates[unique_dates.index(date) - 1]]