探索性数据分析、描述性统计与样本估计
探索性数据分析与描述性统计
在数据分析中,探索性数据分析(Exploratory Data Analysis,EDA)和描述性统计是重要的基础步骤,它们能帮助我们初步了解数据的特征和分布。
位置度量
- 截尾样本均值(Trimmed Sample Mean) :截尾均值是通过从有序原始数据样本的两端去除一定百分比的数据后计算得到的样本均值。例如,对于包含异常值 45 的数据样本 3, 5, 2, 3, 45, 4, 2, 3, 5, 4,计算 10% 截尾均值时,先将数据排序,去除两端各 10% 的数据,再计算剩余数据的均值。截尾均值可以解决样本均值对异常值敏感的问题,但需要谨慎选择截尾的阈值,以免丢弃有价值的数据。
- 样本中位数(Sample Median) :样本中位数是有序样本观测值的中间点。计算时,先将数据从小到大排序,若样本量 n 为奇数,中位数是第 $\frac{n + 1}{2}$ 个有序值;若 n 为偶数,中位数是第 $\frac{n}{2}$ 个和第 $\frac{n}{2} + 1$ 个有序值的平均值。例如,数据样本 (180, 175, 191, 184, 178, 188) 排序后为 (175, 178, 180, 184, 188, 191),n = 6 为偶数,中位数是 $\frac{180 + 184}{2} = 182$。与样本均值不同,样本中位数对异常值不敏感。
- 四分位数(Quartile) :四分位数是将有序数据样本分为四个相等部分的三
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



