因为平时经常要对数据什么的进行可视化,但又一直没有时间整理出一套完整的体系,所以不如柿子捡软的捏用最经典的数据集做一份Demo做参考。
About Iris
Iris数据集由Fisher在一九三六年整理,包含四个特征
- Sepal.Length(花萼长度)
- Sepal.Width(花萼宽度)
- Petal.Length(花瓣长度)
- Petal.Width(花瓣宽度)
特征值都为正浮点数,单位为厘米。
目标值为鸢尾花的分类,包含三类
- Iris Setosa(山鸢尾)
- Iris Versicolour(杂色鸢尾)
- Iris Virginica(维吉尼亚鸢尾)
| sepal_length | sepal_width | petal_length | petal_width | species |
|---|---|---|---|---|
| 5.1 | 3.5 | 1.4 | 0.2 | I. setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | I. setosa |
| 4.7 | 3.2 | 1.3 | 0.2 | I. setosa |
| 4.6 | 3.1 | 1.5 | 0.2 | I. setosa |
| 5.0 | 3.6 | 1.4 | 0.2 | I. setosa |
| 6.1 | 2.8 | 4.7 | 1.2 | I. versicolor |
| 6.4 | 2.9 | 4.3 | 1.3 | I. versicolor |
| 6.6 | 3.0 | 4.4 | 1.4 | I. versicolor |
| 6.8 | 2.8 | 4.8 | 1.4 |

本文通过Python的seaborn和pandas库,详细展示了鸢尾花数据集的可视化过程,包括特征间的关系分析、线箱图、小提琴图、散点图、核密度估计图、Andrews Curves和雷达图。通过对花瓣和花萼长度、宽度的分析,揭示了花瓣的长宽存在极强相关,而花萼的长宽则极弱相关或无相关。此外,文章还介绍了如何通过相关系数矩阵进一步理解特征间的关联性。
最低0.47元/天 解锁文章
841

被折叠的 条评论
为什么被折叠?



