数据统计与线性回归:深入解析与实践
1. 数据统计指标
在数据分析中,我们常常需要一些统计指标来描述数据的特征。以下是一些常见的统计指标:
| 统计指标 | 值 |
| — | — |
| 最小值(Minimum) | 0.000 |
| 第一四分位数(Q1 value) | 0.237 |
| 中位数(Median) | 0.500 |
| 平均值(Mean Val) | 0.495 |
| 标准差(Std Dev) | 0.295 |
| 第三四分位数(Q3 value) | 0.747 |
| 最大值(Maximum) | 0.999 |
除了算术平均值,还有两种特殊的平均值:截尾均值(Trimmed Mean)和加权均值(Weighted Mean)。
- 截尾均值 :是一种稳健的估计方法,对异常值不敏感。例如,对一个产品的五个评分,去掉最高分和最低分,然后计算剩余三个评分的平均值。如果有多个五评分组,重复上述过程,再计算这些截尾均值的平均值。
- 加权均值 :当样本数据不能很好地代表数据集中的不同组时很有用。给代表性不足的组分配更大的权重,可以得到更能准确代表数据集中各个组的加权均值。不过要注意,异常值也会影响均值和加权均值。加权均值等同于期望值,计算公式如下:假设集合 $P = {p_1,p_2,\cdots,p_n}$ 是一个概率分布(其中数值非负且总和为 1),集合 $V = {v_1,v_2,\cdots,v_n}$ 是产品 $M$ 的 $n$ 个特征的数值评分,那么产品的期望值 $E$ 为 $E
超级会员免费看
订阅专栏 解锁全文
2434

被折叠的 条评论
为什么被折叠?



