数据概率分析:基础概念、计算方法与重要函数
1. 概率基础
1.1 概率与概率密度函数
在数据的概率分析中,我们用大写的 (P) 来量化概率,它是一个介于 0 和 1 之间的数值;小写的 (p) 则是概率密度函数,其值的含义不太直观,但 (p) 值越大,数据在 (d) 附近出现的可能性就越高。
概率计算公式为:
[P(d_1, d_2) = \int_{d_1}^{d_2} p(d) dd]
由于数据 (d) 必然在其最小值 (d_{min}) 和最大值 (d_{max}) 之间取值,所以有:
[P(d_{min}, d_{max}) = \int_{d_{min}}^{d_{max}} p(d) dd = 1]
函数 (P(d_{min}, d))(简记为 (P(d)))表示小于 (d) 的总概率,被称为随机变量 (d) 的概率分布(或累积概率分布)。
1.2 测量与随机变量
所有测量都包含噪声,因此每个测量值 (d) 都可视为随机变量。多次重复测量可能得到不同的值,这是由测量误差导致的。不过,重复测量通常具有一定的系统性,这种系统性可以用概率密度函数 (p(d)) 来表示,它既包含了测量量的“真实”值(如果存在的话),也描述了测量噪声。
1.3 随机变量的函数
在数据分析中,我们常常从数据中计算出更有意义的派生量,这些派生量是数据的函数,因此也是随机变量。例如,不同时间的温度测量值相减可得到升温速率。随机变量的代数运算能帮助我们理解测量噪声如何影响从数据中得出的推断。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



