机器学习概率论相关知识了解一下

本文介绍了机器学习中概率论的基础知识,包括条件概率的定义及其与独立事件的关系,期望值和方差的概念,以及协方差的含义和作用。还提及了协方差矩阵在描述多个变量离散程度和相关性中的应用,并简单提到了熵和最大似然估计的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

条件概率和独立
  1. 如果A发生的概率依赖于B,所以A和B同时发生的概率:P(AB)=P(A|B)P(B)P(AB)=P(A|B)P(B);如果用P(A|B¯¯¯¯)P(A|B¯) 表示B不发生时A发生的概率,则P(A)=P(A|B)P(B)+P(A|B¯¯¯¯)(1P(B))P(A)=P(A|B)P(B)+P(A|B¯)(1−P(B));
  2. 如果A发生的概率和B毫无关系,P(A|B)=P(A)P(B)P(A|B)=P(A)P(B)

期望值和方差、协方差
  1. 期望值:变量值与其对应概率的乘积在整个定义域的求和,通俗点说,就是在长时间重复观测下,目标数据的平均值E[X]=ni=1xiP(xi)E[X]=∑i=1nxiP(xi)
  2. 方差:Var(X)=E[(XE[X])2]=E[X2](E[X])2Var(X)=E[(X−E[X])2]=E[X2]−(E[X])2,度量的是当个变量的离散程度。
  3. 协方差:cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y],衡量的 是两个变量离散程度的大小以及相互之间的趋势的一致性。当x大于E[X]时,y也大于E[Y],则协方差大于0,若趋势相反则小于0,如果没有什么关联,则协方差会接近0.所以协方差实际上包含了两个变量之间的统计相关性。
  4. 协方差矩阵:实际应用中,通常X1,X2,...,XnX1,X2,...,Xn一组变量,其协方差矩阵定义为:

    =cov(X1,X1)cov(X2,X1)cov(Xn,X1)cov(X1,X2)cov(X2,X2)cov(Xn,X2)......cov(X1,Xn)cov(X2,Xn)cov(Xn,Xn)∑=[cov(X1,X1)cov(X1,X2)...cov(X1,Xn)cov(X2,X1)cov(X2,X2)...cov(X2,Xn)⋮⋮⋱⋮cov(Xn,X1)cov(Xn,X2)⋯cov(Xn,Xn)]

    协方差矩阵可以描述方差,还有变量间的趋势相关性,不过不同维度的协方差一栏与两个维度的方差大小,所以可以采用相关系数矩阵,相关性系数矩阵的值等效于将数据做了方差归一化之后的协方差矩阵的值。

    衡量分布的无序程度

    H(X)=E[log2(P(X))]=i=1nP(Xi)log2(P(xi))H(X)=E[−log2⁡(P(X))]=−∑i=1nP(Xi)log2⁡(P(xi))

    最大似然估计

    似然函数:L(Θ|X)=P(X|Θ)L(Θ|X)=P(X|Θ),即给定了观测数据和分布形式,把分布参数作为输入,得到在该组参数下观测到的数据x在该分布下的概率。
    所以,如果给定观测的数据和分布,如何才能找到一组参数,让分布和数据最大程度的拟合?

    Θ^=argΘmax[L(Θ|X)]=argΘmax[i=1nP(xi|Θ)]Θ^=argΘmax[L(Θ|X)]=argΘmax[∏i=1nP(xi|Θ)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值