机器学习应用数学基础-概率统计

最新推荐文章于 2024-11-13 11:13:03 发布

原创最新推荐文章于 2024-11-13 11:13:03 发布 · 692 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #统计学

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

应用数学

4 篇文章

订阅专栏

本文介绍了概率论的基本概念，包括全概率公式、贝叶斯定理、随机变量及其分类、分布函数等，并详细阐述了几种常见的离散型和连续型随机变量的分布特性。

部署运行你感兴趣的模型镜像

全概率公式和贝叶斯定理

全概率公式

定理1.2(全概率公式)设事件A1,A2,…,An是试验E的一个完备事件组，且P(Ai)>0,(i=1,2,…,n),则对任意事件B,有： $P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)$

事件A出现的概率*事件A出现的前提下B发生的概率

贝叶斯公式

知道结果，想要知道原因导致的可能性

定理1.3(贝叶斯公式)
事件A1,A2,…,An是试验E的一个完备事件组，且P(Ai)>0,(i=1,2,…,n),B为E的任一事件,P(B)>0,则:
$P(A_k|B)=\frac{P(A_k)P(B|A_k)} {∑_{i=1}^{n}P(A_i)P(B|A_i)}$
B已经发生后，求是哪个A导致的（例子：发烧了，找是什么原因导致）

随机变量

定义

随机事件用变量表示
试验的每一可能结果w,都对应着一个确定的实数X(w)，由于试验的结果是随机的，X的取值也是随机的，这样的变量X称为随机变量。

随机变量的分类
按照随机变量的取值情况可把其分为两类:
（1）离散型随机变量: 随机变量X的全部取值只有有限个或无限可列个.（全体整数，筛子点数）
（2）非离散型随机变量: 随机变量X的全部取值不能一一列出.（身高，数轴取值，灯泡寿命）

随机变量的分布

事件只有概率，变量才会对应数轴上的分布，是事件的

离散型随机变量及其概率分布

定义
若离散型随机变量X的所有可能的取值为 $x_1,x_2...,X$ 取每个可能值的概率为 $P_1,P_2,...$ 即:
$P(X=x_k)=p _k,k=1,2,...(1)$
则称式(1)为离散型随机变量X的概率函数或概率分布，又称分布律或分布列.

X	X1	X2	X3	…	Xk
P	P1	P2	P3	…	Pk

性质
(1) $Pk≥0,k=1,2,..P_k\geq 0,k=1,2,..$
(2) $∑KnPk=1\sum_K^nP_k=1$

连续型随机变量及其概率密度函数

定义2.2设随机变量X的所有可能取值是某一区间上的所有实数，若存在非负可积函数f(x),使得对任意(a,b]，
$P(a<X≤b)=∫abf(x)dxP(a<X\leq b)=\int_a^bf(x)dx$ (函数的阴影面积)
则称X为连续型随机变量，称f(x)为X的概率分布密度函数,简称为概率密度或密度函数，记作X~ $f (x)$ .
性质
（1） $f(x)≥0f(x)\geq0$
（2） $∫−∞+∞f(x)dx=1\int_{-\infty}^{+\infty} f(x)dx=1$
（3）设X是连续型随机变量，则对任意的实数X0, $P(X=x_0)=0$ （趋近于0）
在本章符合：(概率为零的事件未必是不可能事件,概率为1的事件未必是必然事件)
密度函数不是概率 $Δ\Delta$
密度函数f(x)在点x的函数值大小反映了随机变量X在x点附近取值的概率的大小。 $P(x<X≤x+Δx)P(x<X\leq x+\Delta x)$ ~ $f(x)Δxf(x)\Delta x$

随机变量的分布函数（离散+连续）

1.** 定义2.3** 设X为一个随机变量，对任意实数x，函数
$F(x)=P(X≤x)F(x)=P(X\leq x)$
称为随机变量X的分布函数(累计分布函数)。

性质
（1）F(x)是x的不减函数，即对 $x_1<x_2$ ，有 $F(x1)≤F(x2)F(x_1)\leq F(x_2)$
（2） $F（+∞）=1F（+\infty）=1$ $F(−∞)=0F(-\infty)=0$ )（求参数）
设随机变量X的分布函数为F(x)，则：
P{X $≤\leq$ a}= $F (a)$
P{X>a}=1-P{ $X≤aX\leq a$ }= $1 - F (a)$
P{ $a<X≤ba<X\leq b$ }= P{X $≤b\leq b$ }-P{X $≤a\leq a$ }= $F (b) - F (a)$
P{X<a}=F(a)-P{X=a}
P{X $≥\geq$ a}=1-F(a)+P{X=a}
P{a $≤\leq$ X $≤\leq$ b}=F(b)-F(a)+P{X=a}
P{a $≤\leq$ X<b}=F(b)-F(a)-P{X=b}+P{X=a}
P{a<x<b}=F(b)-F(a}-P{X=b}
连续型随机变量的分布函数
设X是连续型随机变量,f(x)是密度函数,则分布函数F(x)为:
$F(x)=P(X≤x)=∫−∞xf(t)dtF(x)=P(X\leq x)=\int_{-\infty}^{x} f(t)dt$
1)连续型随机变量X的分布函数F(x)是连续函数.
2)若f(x)在点x处连续，则F(x)在点x处可导且 $F^{'} (x) = f (x)$ .

例题：通过密度函数求分布函数

常见随机变量的分布

常见离散型随机变量的分布

两点分布
若X所有可能的取值只有两个x。和x，则称X服从两点分布.其概率分布表为:

X	$x_0$	$x_1$
P	1-p	P

仅取0和1两个值的两点分布,称为0-1分布或伯努利分布.记作X_B(1,p)或X0-1.概率分布表:

X	0（不发生）	1（发生）
P	1-p	P

$P(X=k)=p^k(1-p)^{1-k} ,k=0,1$

几何分布
前面k-1次都没有成功，K次成功的概率：
$P(X=k)=(1-p)^{k-1}p,k=1,2,...$
X服从参数为p的几何分布，记作X~G§。
二项分布
(1)发生k次，不发生n-k次的概率：
$P(X=k)=C_n^kp^kq^{n-k}$
其中: 0<p<1, q=1-p, 则称X服从参数为,p的二项分布 Binomial,记为X~B(n,p)

(2)二项分布的最可能值 $k_0$
设X~B(n,p),X可能的取值为0,1…,n,使概率P(X=k)取最大值的k,记作 $k_0$ ,称 $k_0$ 为二项分布的最可能值.把最大值P(X= $k_0$ )称为二项分布的最大概率.

由于P(X=k)最大,所以有以下不等式:
$KaTeX parse error: Undefined control sequence: \ at position 60: …时\\ [(n+1)p],其他\̲ ̲\end{cases}$

泊松分布
(1)泊松分布适合于描述单位时间（或空间）内随机事件发生的次数。
$P(X=k)=λkk!e−λ,k=0,1,2,...P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, k=0,1,2,...$
其中λ>0为常数，则称随机变量X服从参数为λ的泊松分布,简记为X~P( $λ\lambda$ )

(2) Poisson定理
若X~B(n,p),若n比较大,p比较小,np大小适中,则X近似地服从参数为 $λ = n p$ 的泊松分布。

超几何分布
(1) 设N个元素分为两类,第一类有 $N_1$ 个元素,第二类有 $N_2$ 个元素(N= $N_1+N_2$ ),从中任取n个,令X表示这n个元素中第一类元素的个数,则X的概率函数为
$P(X=k)=\frac{C_{N_1}^{k}*C_{N_2}^{n-k}} {C_{N}^{n}} , k=0,1,2,...min(n,N_1)$
称X服从超几何分布。

超几何分布的二项分布逼近
若X服从超几何分布,而N很大,n相对N较小,则X近似地服从参数为 $n,p=N_1/N$ 的二项分布.

常见连续型随机变量的分布

均匀分布
（1）若随机变量X的概率密度为
$f(x)={1b−a,a≤x≤b0,其它f(x)=\begin{cases} \frac{1}{b-a},a\leq x\leq b\\ 0,其它 \end{cases}$
则称X服从区间 $[a, b]$ 上的均匀分布记为X~U $[a, b]$ .

（2）分布函数
$F(x)={0,x<ax−ab−a,a≤x<b1,b≤xF(x)=\begin{cases} 0,x<a\\ \frac{x-a}{b-a},a\leq x< b\\ 1,b\leq x \end{cases}$

指数分布
(1)若随机变量X的密度函数为
$f(x)={λe−λx,x>00,x≤0f(x)=\begin{cases} \lambda e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases}$
其中 $λ\lambda$ >0为常数，则称X服从参数为 $λ\lambda$ 的指数分布,
Exponential distribution,记为X~ $Exp(λE_{xp}(\lambda$ ).

(2)分布函数
$F(x)={1−e−λx,x>00,x≤0F(x)=\begin{cases} 1-e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases}$

说明: 指数分布常可作为各种“寿命”分布的近似，如电子元件的寿命，动物的寿命，电话问题中的通话时间，随机服务系统中的服务时间等都常被假定服从指数分布。

正态分布
(1) $φ(x)=12πσe−(x−μ)22σ2\varphi(x)=\frac{1}{\sqrt{2π}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
$μ,σ为常数，且σ>0,称为正态分布，记作：X\mu,\sigma为常数，且\sigma>0,称为正态分布，记作：X$ ~ $N(μ,σ2).N(\mu,\sigma^2).$

性质
（1）概率密度函数>0
（2）分布函数=1

特性
（1）x=μ对称，最大值 $12πσ\frac{1}{\sqrt{2π}\sigma}$
（2）μ决定位置， $σ\sigma$ 决定形状的陡与缓

（2）标准正态分布
$μ=0,σ=1时，正态分布称为标准正态分布，记为：X\mu=0,\sigma=1时，正态分布称为标准正态分布，记为：X$ ~N(0,1).

分布函数
1) $Φ0(−x)=1−Φ0(x),Φ0(x)=0.5\Phi_0(-x)=1-\Phi_0(x),\Phi_0(x)=0.5$
2) $P(a<X≤b)=Φ0(b)−Φ0(a)P(a<X\leq b)=\Phi_0(b)-\Phi_0(a)$
3) $x>0,P(∣X∣≤x)=2Φ0(x)−1x>0,P(|X|\leq x)=2\Phi_0(x)-1$

标准化转换公式
1) $φ(x)=1σφ0(x−μσ),x∈R\varphi(x)=\frac{1}{\sigma}\varphi_0(\frac{x-\mu}{\sigma}),x\in R$
2) $Φ(x)=Φ0(x−μσ),x∈R\Phi(x)=\Phi_0(\frac{x-\mu}{\sigma}),x\in R$

$3σ准侧3\sigma 准侧$ ：3个标准差里面的概率超过99.73%

随机变量函数的分布

随机变量函数

定义
设X是一个随机变量，y=g(x)是连续函数，则Y=g（x）也是随机变量，称Y=g(X)为随机变量的函数。（概率结果放到一个函数里）

离散型随机变量函数的分布

概率P不变，X根据变化函数计算结果，X计算出相同的Y需要合并

连续型随机变量函数的分布

步骤：
step1： $求出Y的分布函数F_Y(y)$ :
$FY(y)=P(Y≤y)=P(g(X)≤y)=P(x∈Iy)=∫Iyfx(x)dxF_Y(y)=P(Y\leq y)=P(g(X)\leq y)=P(x\in I_y)=\int_{I_y}f_x(x)dx$
step2: 对 $F_Y(y)求导得到f_Y(y)$ :
$f_Y(y)=(F_Y(y))'$

均匀分布
随机变量服从 $[a ， b]$ 上的均匀分布，则X的线性函数 $Y=kX+c（k≠0）Y=kX+c（k\neq 0）$ 服从相应区间上的均匀分布， $Y∈[ka+c，kb+c]Y\in[ka+c，kb+c]$ 。

${1kb−ka,[ka+c，kb+c]0,others\begin{cases} \frac{1}{kb-ka},[ka+c，kb+c]\\ 0,others \end{cases}$

定理
$随机变量X的密度函数为fX(x),则随机变量Y=kX+b（k≠0）的密度函数为：随机变量X的密度函数为f_X(x),则随机变量Y=kX+b（k\neq 0）的密度函数为：$
$fY(x)=1∣k∣fX(x−bk)f_Y(x)=\frac{1}{|k|}f_X(\frac{x-b}{k})$

大数定律

大量实验得出的结论具有稳定性，变量的均值（多次实验）在期望的均值（多次实验期望的均值）附近。

切比雪夫不等式

定理5.1：设随机变量X的期望EX及方差DX存在，则对任意的ε>0，有：
$P(∣X−EX∣≥ε)≤DXε2P(|X-EX|\geqε)\leq \frac{DX}{ε^2}$
$P(∣X−EX∣≤ε)≤1−DXε2P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2}$

大数定理

$P(∣X−EX∣≤ε)≤1−DXε2P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2}$

定义5.1：设 $X_1,X_2,..,X_n..$ 是一随机变量序列，如果存在常数a，使对任意的ε>0，都有:
$limP(|X_n-a|<ε)=1$

意义：大量实验下，Xn偶尔超出范围的点不改变大量数据的统计稳定性，总体在范围内的概率是趋于1。

定理5.2：伯努利大数定律
前提：n次，发生 $m_n$ 次，P为发生的概率， $mnn\frac{m_n}{n}$ 为频率。
$limn−>∞P{∣mnn−p∣<ε}=1lim_{n->\infty}P\{|\frac{m_n}{n}-p|<ε\}=1$

说明： $n−>∞n->\infty$ 无数次实验，频率趋向于概率

切贝雪夫大数定律
前提： $X_1,X_2....X_n$ 是相互独立的随机变量序列。
变量的均值趋近于期望的均值，不被某几项变量的影响

中心极限定理

一个随机变量，如果它是很多个相互独立的随机变量之和，不管它们是离散的还是连续的或者是任何类型的，只要它们其中每一个对总和只产生微小的影响，则当求和项数无限增加时，这一总和的分布就趋于正态分布。（炮弹发射有很多东西影响，每个细小原因的影响最终反映在炮弹准确度上，炮弹的误差呈现正态分布）
定义：大量的相互独立的随机变量和的极限分布是正态分布

独立同分布中心极限定理\林德贝格-勒维中心极限定理

独立同分布的随机变量序列，且 $EXi=μ,DXi=σ2>0EX_i=\mu,DX_i=\sigma^2>0$ ,(i=1,2,…)
则对任意实数x恒有： $limn−>∞P{1nσ(∑i=1nXi−nμ)≤x}=Φ0(x)lim_{n->\infty}P\{\frac{1}{\sqrt{n}\sigma}\\(\sum_{i=1}^nX_i-n\mu)\leq x\}=\Phi_0(x)$

标准化后服从标准正态分布: $∑xi−nμnσ\frac{\sum x_i-n\mu}{\sqrt{n}\sigma}$ ~ $N (0, 1)$

您可能感兴趣的与本文相关的镜像

Facefusion

AI应用

FaceFusion是全新一代AI换脸工具，无需安装，一键运行，可以完成去遮挡，高清化，卡通脸一键替换，并且Nvidia/AMD等显卡全平台支持