随机变量与概率分布相关知识详解
1. 方差(Variance)
在数据分析中,我们常常需要一个数值来描述数据围绕其典型值的离散程度。对于概率密度函数 (p(d)) 的宽度度量,有一个直观的选择是四分位距(interquartile),即 (d) 轴上包含总概率 50% 且以中位数 (d_{median}) 为中心的长度 (d_{50})。这意味着 50% 的测量值会散布在 (d_{median}-\frac{d_{50}}{2}) 到 (d_{median}+\frac{d_{50}}{2}) 之间。较大的 (d_{50}) 对应高噪声测量场景,较小的 (d_{50}) 对应低噪声场景。然而,在实际应用中,方差(variance)更为常用。
方差基于一种不同的宽度量化方法,它与概率没有直接关系。考虑二次函数 (q(d) = (d - \bar{d})^2),它在均值 (\bar{d}) 附近较小,远离均值时较大。当我们将概率密度函数 (p(d)) 与 (q(d)) 相乘,得到 (q(d)p(d))。如果概率密度函数较窄,那么 (q(d)p(d)) 在各处的值都会较小,因为在均值附近,(p(d)) 的大值会被 (q(d)) 的小值抵消,而远离均值时,(q(d)) 的大值会被 (p(d)) 的小值抵消,此时 (q(d)p(d)) 下方的面积较小;反之,如果概率密度函数较宽,(q(d)p(d)) 下方的面积则较大。这个面积就是方差,用符号 (\sigma_d^2) 表示,其计算公式为:
(\sigma_d^2 = \int_{d_{min}}^{d_{max}} (d - \bar{d})^2 p(d) dd)
方差的单位是 (d^2),因此方差的平方根 (\sigma_d)
超级会员免费看
订阅专栏 解锁全文
45

被折叠的 条评论
为什么被折叠?



