探索性数据分析与概率理论基础
1. 探索性数据分析实践
在数据分析中,探索性数据分析(Exploratory Data Analysis,EDA)是至关重要的一步。它能帮助我们了解数据的特征和分布,为后续的分析和建模提供基础。
1.1 百分位数计算
百分位数是一种用于描述数据分布的统计量。例如,我们可以计算鸢尾花数据集不同品种花瓣长度的 90% 百分位数。以下是具体的 Python 代码:
import numpy as np
# 假设 iris_setosa、iris_virginica、iris_versicolor 是已经加载好的鸢尾花数据集的不同品种数据
print("\n 90th Percentiles:")
print(np.percentile(iris_setosa["petal_length"], 90))
print(np.percentile(iris_virginica["petal_length"], 90))
print(np.percentile(iris_versicolor["petal_length"], 90))
运行上述代码,可能会得到类似以下的结果:
90th Percentiles:
1.7
6.3100000000000005
4.8
1.2 分位数
分位数是将数据按从小到大的顺序排列后,将其划分为四个等份的数值。具体来说:
- 第一分位数(Q1):最低的 25% 的数值。
- 第二分位数:介于
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



