把自己做的笔记记录一下。。。
随机事件:
随机变量的取值与概率值的映射一一对应。
即: 概率分布->随机变量的值
然后是期望与方差
离散:E(x) = Σp(x)x D(x) = Σp(x)x^2 - E(x)
连续: E(x) = ∫P(x)xdx D(x) = ∫P(x)x^2dx - (E(x))2(次方) = E(x平方)-E(x)平方
联合概率P(X,Y)
全概率:
P(X,Y) = P(X)P(Y|X) = P(Y)(X|Y)
由此得出了重要点贝叶斯定理:
P(Y|X) = P(Y)P(X|Y) / P(X)
其中
Y:隐含变量 X:观察变量
P(Y):先验概率 表示对一个随机变量概率的最初认识
P(X|Y): 似然。表示在承认先验的概率下另一个与之相关的随机变量的表现
P(Y|X):后验。表示当拥有X这个条件后Y的概率
P(X)为标准化常量 X是已知常量
接下来重点关注一下随机型变量方差 期望:
这两个概念十分重要 要掌握和使用
期望:X的概率的加权频率
可以这样理解 随机变量对应分布列的“重心”(中心)
为什么这样说呢
假设x的分布列如下 求出期望就是两者的中心(加引号)
为什么很多时候用到E(x)因为它代表这一部分的数据的分布情况(应用于提取特征等)
方差:期望周围的分散程度
var(x) = E[(x-E^2(x)] 很好理解 距离嘛
标准差就是开一下根号 为什么常用标准差呢 因为它和变量的量纲一样
接下来举一个例子:
Y= ax+b=g(x) x∈g(x)
求 E(Y) var(Y)
根据定义 确保从定义出发
E(Y) = Σg(x)P(x)
= ΣaxP(x) + Σbp(x)
=aE[x] + b (a,b常数提取出来)
var(Y) = E[ Y -E^2(Y) ]
= a^2 * Σ(x-E^2(x)) * p(x)
= a2 * var(x) (很简单 把Y带入,平方拆开就能得出结果)
至于
var(x) = E[(x-E^2(x)] = E(x2) - E2(x) 我就不推了 很简单 也是从定义出发
重点
除非g(x)是线性函数
否则一般情况下:
E[g(x)] != g(E[x])