数据可视化与机器学习基础
1. 数据可视化相关发现
在数据可视化的探索中,有一个令人惊讶的发现:80 岁的女性在分段时间方面似乎表现优于其他人。不过,这可能是因为该年龄段的跑步者数量较少,我们是基于少量数据来估计分布的。以下代码可以验证该年龄段的跑步者数量:
In[38]: (data.age > 80).sum()
Out[38]: 7
接着,我们关注那些后半程速度更快的男性跑步者。这些跑步者是哪些人呢?分段时间比例与快速完成比赛是否相关?我们可以很容易地通过绘图来探究这个问题。使用 regplot 函数,它会自动对数据进行线性回归拟合:
In[37]: g = sns.lmplot('final_sec', 'split_frac', col='gender', data=data,
markers=".", scatter_kws=dict(color='c'))
g.map(plt.axhline, y=0.1, color="k", ls=":");
从绘制的图表中可以看出,那些分段时间快的人通常是精英跑步者,他们能在约 15000 秒(约 4 小时)内完成比赛。而速度较慢的人后半程速度变快的可能性要小得多。
2. 数据可视化资源
2.1 Matplotlib 资源
Matplotlib 是一个强大的 Pyth
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



