Deep Learning花书学习笔记-------第3章 概率与信息论

本文详细介绍了概率论在深度学习中的应用,包括频率派与贝叶斯派的概率理解,随机变量,概率分布,条件概率,独立性,期望、方差和协方差等概念。还探讨了常用概率分布如伯努利、二项、多项式和正态分布,以及激活函数如logistic sigmoid和ReLU。最后,提到了信息熵、KL散度和结构化概率模型在模型中的角色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第3章 概率与信息论

3.1 为什么使用概率

  • 频率派概率:概率直接与事件发生的频率相联系,如果一个事件发生的概率为p,p是可以通过反复试验由频率确定的。此时的概率p可以理解为一个参数可以通过试验确定。频率派进行推断时,依赖于数据的分布,以及试验观察获得的结果,通过似然函数进行推断。对于似然函数p(x|w),频率派认为w是一个确定的参数,通过极大似然估计法确定w。
  • 贝叶斯概率:概率用来表示一种信任度,表示一种确定性水平。此时p可以当做一个随机变量,变量表示事件的不确定程度。贝叶斯学派进行推断时,依赖于事件的总分布(先验),数据分布,试验观察的结果。采用后验概率进行推断,后验 = 先验 * 似然。p(w|x) = p(w)p(x|w),贝叶斯学派采用最大化后验概率的方式确定w。

3.2 随机变量 

3.3 概率分布 

  • 离散型变量和概率质量函数:离散型变量取值是离散的,概率分布为概率质量函数P(x)。
  • 连续型变量和概率密度函数: 连续型变量取值是连续的,概率分布为概率密度函数p(x),\int{p(x)dx} = 1。概率密度函数p(x)没有直接给出对某一状态的概率,相对的,它给出了落在面积为\delta x的无限小的区域内的概率为p(x) \delta x。x落到点集[a, b]内的概率为\int _{[a+b]} p(x)dx

3.4 边缘概率 

  •  边缘概率分布:已知一组随机变量集合的联合概率分布P(x = a, y = b),该集合的一个子集的概率分布为边缘概率分布。离散型变量的边缘概率分布:P(x = a) = \Sigma _{b} P(x = a, y = b)。连续型变量的边缘概率分布:p(x) = \int p(x, y)dy

3.5 条件概率 

  • 条件概率:给定条
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值