机器学习应用数学基础-概率统计

本文介绍了概率论的基本概念,包括全概率公式、贝叶斯定理、随机变量及其分类、分布函数等,并详细阐述了几种常见的离散型和连续型随机变量的分布特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全概率公式和贝叶斯定理

全概率公式

  1. 定理1.2(全概率公式)设事件A1,A2,…,An是试验E的一个完备事件组,且P(Ai)>0,(i=1,2,…,n),则对任意事件B,有:P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)P(B)=i=1nP(Ai)P(BAi)
  • 事件A出现的概率*事件A出现的前提下B发生的概率

贝叶斯公式

  • 知道结果,想要知道原因导致的可能性
  1. 定理1.3(贝叶斯公式)
    事件A1,A2,…,An是试验E的一个完备事件组,且P(Ai)>0,(i=1,2,…,n),B为E的任一事件,P(B)>0,则:
    P(Ak∣B)=P(Ak)P(B∣Ak)∑i=1nP(Ai)P(B∣Ai) P(A_k|B)=\frac{P(A_k)P(B|A_k)} {∑_{i=1}^{n}P(A_i)P(B|A_i)}P(AkB)=i=1nP(Ai)P(BAi)P(Ak)P(BAk)
    B已经发生后,求是哪个A导致的 (例子:发烧了,找是什么原因导致)

随机变量

  1. 定义
  • 随机事件用变量表示
  • 试验的每一可能结果w,都对应着一个确定的实数X(w),由于试验的结果是随机的,X的取值也是随机的,这样的变量X称为随机变量
  1. 随机变量的分类
    按照随机变量的取值情况可把其分为两类:
    (1)离散型随机变量: 随机变量X的全部取值只有有限个或无限可列个.(全体整数,筛子点数)
    (2)非离散型随机变量: 随机变量X的全部取值不能一一列出.(身高,数轴取值,灯泡寿命)

随机变量的分布

  • 事件只有概率,变量才会对应数轴上的分布,是事件的

离散型随机变量及其概率分布

  1. 定义
    若离散型随机变量X的所有可能的取值为x1,x2...,Xx_1,x_2...,Xx1,x2...,X取每个可能值的概率为P1,P2,...P_1,P_2,...P1,P2,...即:
    P(X=xk)=pk,k=1,2,...(1)P(X=x_k)=p _k,k=1,2,...(1)P(X=xk)=pk,k=1,2,...(1)
    则称式(1)为离散型随机变量X的概率函数概率分布,又称分布律或分布列.
XX1X2X3Xk
PP1P2P3Pk
  1. 性质
    (1) Pk≥0,k=1,2,..P_k\geq 0,k=1,2,..Pk0,k=1,2,..
    (2) ∑KnPk=1\sum_K^nP_k=1KnPk=1

连续型随机变量及其概率密度函数

  1. 定义2.2设随机变量X的所有可能取值是某一区间上的所有实数,若存在非负可积函数f(x),使得对任意(a,b],
    P(a<X≤b)=∫abf(x)dxP(a<X\leq b)=\int_a^bf(x)dxP(a<Xb)=abf(x)dx(函数的阴影面积)
    则称X为连续型随机变量,称f(x)为X的概率分布密度函数,简称为概率密度密度函数,记作X~f(x)f(x)f(x).

  2. 性质
    (1)f(x)≥0f(x)\geq0f(x)0
    (2)∫−∞+∞f(x)dx=1\int_{-\infty}^{+\infty} f(x)dx=1+f(x)dx=1
    (3)设X是连续型随机变量,则对任意的实数X0,P(X=x0)=0P(X=x_0)=0P(X=x0)=0(趋近于0)
    在本章符合:(概率为零的事件未必是不可能事件,概率为1的事件未必是必然事件)

  3. 密度函数不是概率Δ\DeltaΔ
    密度函数f(x)在点x的函数值大小反映了随机变量X在x点附近取值的概率的大小。P(x<X≤x+Δx)P(x<X\leq x+\Delta x)P(x<Xx+Δx)~f(x)Δxf(x)\Delta xf(x)Δx

随机变量的分布函数(离散+连续)

1.** 定义2.3** 设X为一个随机变量,对任意实数x,函数
F(x)=P(X≤x)F(x)=P(X\leq x)F(x)=P(Xx)
称为随机变量X的分布函数(累计分布函数)。

  1. 性质
    (1)F(x)是x的不减函数,即对x1<x2x_1<x_2x1<x2,有F(x1)≤F(x2)F(x_1)\leq F(x_2)F(x1)F(x2)
    (2)F(+∞)=1F(+\infty)=1F+=1 F(−∞)=0F(-\infty)=0F()=0)(求参数)

  2. 设随机变量X的分布函数为F(x),则:
    P{X≤\leq a}=F(a)F(a)F(a)
    P{X>a}=1-P{X≤aX\leq aXa}=1−F(a)1-F(a)1F(a)
    P{a<X≤ba<X\leq ba<Xb}= P{X≤b\leq bb}-P{X≤a\leq aa}=F(b)−F(a)F(b)-F(a)F(b)F(a)
    P{X<a}=F(a)-P{X=a}
    P{X≥\geqa}=1-F(a)+P{X=a}
    P{a≤\leqX≤\leqb}=F(b)-F(a)+P{X=a}
    P{a≤\leqX<b}=F(b)-F(a)-P{X=b}+P{X=a}
    P{a<x<b}=F(b)-F(a}-P{X=b}

  3. 连续型随机变量的分布函数
    设X是连续型随机变量,f(x)是密度函数,则分布函数F(x)为:
    F(x)=P(X≤x)=∫−∞xf(t)dtF(x)=P(X\leq x)=\int_{-\infty}^{x} f(t)dtF(x)=P(Xx)=xf(t)dt
    1)连续型随机变量X的分布函数F(x)是连续函数.
    2)若f(x)在点x处连续,则F(x)在点x处可导且F′(x)=f(x)F'(x)=f(x)F(x)=f(x).

例题:通过密度函数求分布函数

常见随机变量的分布

常见离散型随机变量的分布

  1. 两点分布
    若X所有可能的取值只有两个x。和x,则称X服从两点分布.其概率分布表为:
Xx0x_0x0x1x_1x1
P1-pP

仅取0和1两个值的两点分布,称为0-1分布或伯努利分布.记作XB(1,p)或X0-1.概率分布表:

X0(不发生)1(发生)
P1-pP

P(X=k)=pk(1−p)1−k,k=0,1P(X=k)=p^k(1-p)^{1-k} ,k=0,1P(X=k)=pk(1p)1k,k=0,1

  1. 几何分布
    前面k-1次都没有成功,K次成功的概率:
    P(X=k)=(1−p)k−1p,k=1,2,...P(X=k)=(1-p)^{k-1}p,k=1,2,...P(X=k)=(1p)k1p,k=1,2,...
    X服从参数为p的几何分布,记作X~G§。

  2. 二项分布
    (1)发生k次,不发生n-k次的概率:
    P(X=k)=Cnkpkqn−k P(X=k)=C_n^kp^kq^{n-k}P(X=k)=Cnkpkqnk
    其中: 0<p<1, q=1-p, 则称X服从参数为,p的二项分布 Binomial,记为X~B(n,p)

(2)二项分布的最可能值k0k_0k0
设X~B(n,p),X可能的取值为0,1…,n,使概率P(X=k)取最大值的k,记作k0k_0k0,称k0k_0k0二项分布的最可能值.把最大值P(X=k0k_0k0)称为二项分布的最大概率.

由于P(X=k)最大,所以有以下不等式:
KaTeX parse error: Undefined control sequence: \ at position 60: …时\\ [(n+1)p],其他\̲ ̲\end{cases}

  1. 泊松分布
    (1)泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
    P(X=k)=λkk!e−λ,k=0,1,2,...P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, k=0,1,2,...P(X=k)=k!λkeλ,k=0,1,2,...
    其中λ>0为常数,则称随机变量X服从参数为λ的泊松分布,简记为X~P(λ\lambdaλ)

(2) Poisson定理
若X~B(n,p),若n比较大,p比较小,np大小适中,则X近似地服从参数为λ=npλ=npλ=np的泊松分布。

  1. 超几何分布
    (1) 设N个元素分为两类,第一类有N1N_1N1个元素,第二类有N2N_2N2个元素(N=N1+N2N_1+N_2N1+N2),从中任取n个,令X表示这n个元素中第一类元素的个数,则X的概率函数为
    P(X=k)=CN1k∗CN2n−kCNn,k=0,1,2,...min(n,N1) P(X=k)=\frac{C_{N_1}^{k}*C_{N_2}^{n-k}} {C_{N}^{n}} , k=0,1,2,...min(n,N_1)P(X=k)=CNnCN1kCN2nk,k=0,1,2,...min(n,N1)
    称X服从超几何分布。

超几何分布的二项分布逼近
若X服从超几何分布,而N很大,n相对N较小,则X近似地服从参数为n,p=N1/Nn,p=N_1/Nn,p=N1/N的二项分布.

常见连续型随机变量的分布

  1. 均匀分布
    (1)若随机变量X的概率密度为
    f(x)={1b−a,a≤x≤b0,其它f(x)=\begin{cases} \frac{1}{b-a},a\leq x\leq b\\ 0,其它 \end{cases}f(x)={ba1,axb0,
    则称X服从区间[a,b][a,b][a,b]上的均匀分布记为X~U[a,b][a,b][a,b].

(2)分布函数
F(x)={0,x<ax−ab−a,a≤x<b1,b≤xF(x)=\begin{cases} 0,x<a\\ \frac{x-a}{b-a},a\leq x< b\\ 1,b\leq x \end{cases}F(x)=0,x<abaxa,ax<b1,bx

  1. 指数分布
    (1)若随机变量X的密度函数为
    f(x)={λe−λx,x>00,x≤0f(x)=\begin{cases} \lambda e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases}f(x)={λeλx,x>00,x0
    其中λ\lambdaλ>0为常数,则称X服从参数为λ\lambdaλ的指数分布,
    Exponential distribution,记为X~Exp(λE_{xp}(\lambdaExp(λ).

(2)分布函数
F(x)={1−e−λx,x>00,x≤0F(x)=\begin{cases} 1-e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases}F(x)={1eλx,x>00,x0

说明: 指数分布常可作为各种“寿命”分布的近似,如电子元件的寿命,动物的寿命,电话问题中的通话时间,随机服务系统中的服务时间等都常被假定服从指数分布。

  1. 正态分布
    (1)φ(x)=12πσe−(x−μ)22σ2\varphi(x)=\frac{1}{\sqrt{2π}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}φ(x)=2πσ1e2σ2(xμ)2
    μ,σ为常数,且σ>0,称为正态分布,记作:X\mu,\sigma为常数,且\sigma>0,称为正态分布,记作:Xμ,σσ>0,X~N(μ,σ2).N(\mu,\sigma^2).N(μ,σ2).

性质
(1)概率密度函数>0
(2)分布函数=1

特性
(1)x=μ对称,最大值12πσ\frac{1}{\sqrt{2π}\sigma}2πσ1
(2)μ决定位置,σ\sigmaσ决定形状的陡与缓

(2)标准正态分布
μ=0,σ=1时,正态分布称为标准正态分布,记为:X\mu=0,\sigma=1时,正态分布称为标准正态分布,记为:Xμ=0,σ=1X~N(0,1).

分布函数
1)Φ0(−x)=1−Φ0(x),Φ0(x)=0.5\Phi_0(-x)=1-\Phi_0(x),\Phi_0(x)=0.5Φ0(x)=1Φ0(x),Φ0(x)=0.5
2)P(a<X≤b)=Φ0(b)−Φ0(a)P(a<X\leq b)=\Phi_0(b)-\Phi_0(a)P(a<Xb)=Φ0(b)Φ0(a)
3)x>0,P(∣X∣≤x)=2Φ0(x)−1x>0,P(|X|\leq x)=2\Phi_0(x)-1x>0,P(Xx)=2Φ0(x)1

标准化转换公式
1)φ(x)=1σφ0(x−μσ),x∈R\varphi(x)=\frac{1}{\sigma}\varphi_0(\frac{x-\mu}{\sigma}),x\in Rφ(x)=σ1φ0(σxμ),xR
2)Φ(x)=Φ0(x−μσ),x∈R\Phi(x)=\Phi_0(\frac{x-\mu}{\sigma}),x\in RΦ(x)=Φ0(σxμ),xR

3σ准侧3\sigma 准侧3σ:3个标准差里面的概率超过99.73%

随机变量函数的分布

随机变量函数

  1. 定义
    设X是一个随机变量,y=g(x)是连续函数,则Y=g(x)也是随机变量,称Y=g(X)为随机变量的函数。(概率结果放到一个函数里)

离散型随机变量函数的分布

概率P不变,X根据变化函数计算结果,X计算出相同的Y需要合并

连续型随机变量函数的分布

步骤:
step1:求出Y的分布函数FY(y)求出Y的分布函数F_Y(y)YFY(y):
FY(y)=P(Y≤y)=P(g(X)≤y)=P(x∈Iy)=∫Iyfx(x)dxF_Y(y)=P(Y\leq y)=P(g(X)\leq y)=P(x\in I_y)=\int_{I_y}f_x(x)dxFY(y)=P(Yy)=P(g(X)y)=P(xIy)=Iyfx(x)dx
step2: 对FY(y)求导得到fY(y)F_Y(y)求导得到f_Y(y)FY(y)fY(y):
fY(y)=(FY(y))′f_Y(y)=(F_Y(y))'fY(y)=(FY(y))

  1. 均匀分布
    随机变量服从[a,b][a,b][ab]上的均匀分布,则X的线性函数Y=kX+c(k≠0)Y=kX+c(k\neq 0)Y=kX+ck=0服从相应区间上的均匀分布,Y∈[ka+c,kb+c]Y\in[ka+c,kb+c]Y[ka+ckb+c]

{1kb−ka,[ka+c,kb+c]0,others\begin{cases} \frac{1}{kb-ka},[ka+c,kb+c]\\ 0,others \end{cases}{kbka1,[ka+ckb+c]0,others

  1. 定理
    随机变量X的密度函数为fX(x),则随机变量Y=kX+b(k≠0)的密度函数为:随机变量X的密度函数为f_X(x),则随机变量Y=kX+b(k\neq 0)的密度函数为:XfX(x),Y=kX+bk=0
    fY(x)=1∣k∣fX(x−bk)f_Y(x)=\frac{1}{|k|}f_X(\frac{x-b}{k})fY(x)=k1fX(kxb)

大数定律

  • 大量实验得出的结论具有稳定性,变量的均值(多次实验)在期望的均值(多次实验期望的均值)附近。

切比雪夫不等式

  1. 定理5.1:设随机变量X的期望EX及方差DX存在,则对任意的ε>0,有:
    P(∣X−EX∣≥ε)≤DXε2P(|X-EX|\geqε)\leq \frac{DX}{ε^2}P(XEXε)ε2DX
    P(∣X−EX∣≤ε)≤1−DXε2P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2}P(XEXε)1ε2DX

大数定理

P(∣X−EX∣≤ε)≤1−DXε2P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2}P(XEXε)1ε2DX

  1. 定义5.1:设X1,X2,..,Xn..X_1,X_2,..,X_n..X1,X2,..,Xn..是一随机变量序列,如果存在常数a,使对任意的ε>0,都有:
    limP(∣Xn−a∣<ε)=1limP(|X_n-a|<ε)=1limP(Xna<ε)=1
  • 意义:大量实验下,Xn偶尔超出范围的点不改变大量数据的统计稳定性,总体在范围内的概率是趋于1。
  1. 定理5.2:伯努利大数定律
    前提:n次,发生mnm_nmn次,P为发生的概率,mnn\frac{m_n}{n}nmn为频率。
    limn−>∞P{∣mnn−p∣<ε}=1lim_{n->\infty}P\{|\frac{m_n}{n}-p|<ε\}=1limn>P{nmnp<ε}=1
  • 说明:n−>∞n->\inftyn>无数次实验,频率趋向于概率
  1. 切贝雪夫大数定律
    前提:X1,X2....XnX_1,X_2....X_nX1,X2....Xn是相互独立的随机变量序列。
    变量的均值趋近于期望的均值,不被某几项变量的影响

中心极限定理

  • 一个随机变量,如果它是很多个相互独立的随机变量之和,不管它们是离散的还是连续的或者是任何类型的,只要它们其中每一个对总和只产生微小的影响,则当求和项数无限增加时,这一总和的分布就趋于正态分布。(炮弹发射有很多东西影响,每个细小原因的影响最终反映在炮弹准确度上,炮弹的误差呈现正态分布)
  • 定义:大量的相互独立的随机变量极限分布是正态分布

独立同分布中心极限定理\林德贝格-勒维中心极限定理

独立同分布的随机变量序列,且EXi=μ,DXi=σ2>0EX_i=\mu,DX_i=\sigma^2>0EXi=μ,DXi=σ2>0,(i=1,2,…)
则对任意实数x恒有:limn−>∞P{1nσ(∑i=1nXi−nμ)≤x}=Φ0(x)lim_{n->\infty}P\{\frac{1}{\sqrt{n}\sigma}\\(\sum_{i=1}^nX_i-n\mu)\leq x\}=\Phi_0(x)limn>P{nσ1(i=1nXinμ)x}=Φ0(x)

  • 标准化后服从标准正态分布:∑xi−nμnσ\frac{\sum x_i-n\mu}{\sqrt{n}\sigma}nσxinμ~N(0,1)N(0,1)N(0,1)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值