机器学习中的数学——概率论与信息论笔记

本文深入探讨了机器学习中概率论与信息论的基础概念,包括随机变量、概率分布、贝叶斯规则、信息量和结构化概率模型。通过详细阐述概率论的各个部分,如条件概率、独立性和期望,以及信息论中的熵和KL散度,为机器学习中的不确定性建模提供了理论基础。结构化概率模型则通过图模型来高效描述复杂的联合概率分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概率论与信息论

1.概率论

概率论用于表示不确定性声明的数学框架,不仅提供量化不确定的方法,提供用于导出新的不确定声明的公理。

作用:①设计算法计算或估算由概率论导出的表达式;②用概率与统计从理论上分析AI系统的行为。

不确定性的三种可能来源:

①、被建模系统内在的随机性。

②、不完全观测;不能观测到所有驱动系统行为的变量时,该系统会变得随机。

③、不完全建模。使用必须舍弃某些观测信息的模型时,舍弃的信息会导致预测出现不确定性。

1.1随机变量

随机变量只是对可能状态该的描述;必须伴随一个概率分布来指定某个状态的可能性。

1.2 概率分布

概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小。

1.2.1 概率质量函数

概率质量函数将随机变量能取得的每个状态映射到随机变量取得该状态的概率。PMF可同时作用于多个随机变量,称为联合概率分布。

函数p是随机变量x的概率质量函数满足以下条件:

①、P的定义域是随机变量x所有可能状态的集合;

②、∀x∈x,0≤P(x)≤1\forall x \in {\bf x}, 0 \leq P(x)\leq 1xx,0P(x)1

③、∑x∈xP(x)=1\sum_{x \in {\bf x}} P(x)=1xxP(x)=1归一化性质。

1.2.2 概率密度函数

概率密度函数满足以下条件:

①、p的定义域必须是x{\bf x}x所有可能状态的集合;

②、∀x∈x,p(x)≥0\forall x \in {\bf x}, p(x) \geq 0xx,p(x)0,并不要求p(x)≤1p(x) \leq 1p(x)1;

③、∫p(x)dx=1\int p(x) dx=1p(x)dx=1

概率密度函数并未直接给出特定状态的的概率,而是落在面积为δx\delta xδx的无限小区域内的概率为p(x)δxp(x)\delta xp(x)δx

1.3 边缘概率

已知联合概率,对其中某一随机变量的所有状态求和,即可得到该分布的边缘概率分布。
∀x∈x,P(x=x)=∑yP(x=x,y=y)p(x)=∫p(x,y)dy \forall x \in {\bf x}, P(x={\bf x})=\sum_yP(x={\bf x},y={\bf y}) \\ p(x)=\int p(x,y) dy xx,P(x=x)=yP(x=x,y=y)p(x)=p(x,y)dy

1.4 条件概率

某个事件给定的情况下,其他事件发生的概率。
P(y=y∣x=x)=P(x=x,y=y)P(x=x) P(y={\bf y} |x={\bf x})=\dfrac{P(x={\bf x},y={\bf y})}{P(x={\bf x})} P(y=yx=x)=P(x=x)P(x=x,y=y)

注意:避免混淆条件概率和干预查询。干预查询是指计算一个行动的后果,属于因果模型的范畴。

1.4.1 条件概率的链式法则

P(x(1),⋯ ,x(n))=P(x(1))∏i=2nP(x(i)∣x(1),⋯ ,x(i−1)) P({\bf x}^{(1)},\cdots ,{\bf x}^{(n)})=P({\bf x}^{(1)})\prod_{i=2}^nP({\bf x}^{(i)}|{\bf x}^{(1)},\cdots ,{\bf x}^{(i-1)}) P(x(1),,x(n))=P(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值