7、统计学与信息论基础:从概率到熵的深入解析

统计学与信息论基础:从概率到熵的深入解析

1. 概率分布与近似

在统计学中,离散的二项分布常被连续的正态分布近似。当两种基本结果都有合理的发生概率,或者数据量非常大(大致当某个条件满足时),这种近似是可接受的。然而,在自然语言处理中,像“shade tree mechanics”这样的短语出现的概率极低,即使有大量的文本数据,合适的二项分布曲线与近似的正态分布曲线之间仍会存在显著差异,因此使用正态近似可能并不明智。

此外,高斯分布常用于聚类分析。这里主要讨论了一维或单变量正态分布,而在其他场景中会涉及到多变量正态分布。书中还提到了其他连续分布,如双曲分布和用于假设检验的某种分布。

2. 贝叶斯统计与更新

传统统计学有其正统的理论基础,但并非所有人都认同其哲学根基。贝叶斯统计是与之竞争的主要方法,在统计自然语言处理中非常有用。

2.1 贝叶斯更新示例

假设抛一枚硬币10次,得到8次正面。从频率主义的角度来看,这枚硬币正面朝上的概率是8/10,即最大似然估计。但如果观察硬币后觉得它没有问题,人们可能不太愿意接受这个估计,而是倾向于认为从长远来看,硬币正面和反面朝上的概率应该相等,10次中有8次正面只是小样本下的偶然情况。这就是先验信念,即使面对看似相反的证据,它也会影响人们的判断。

贝叶斯统计通过先验信念和贝叶斯定理来更新信念。设某个模型断言硬币正面朝上的概率为(\theta),(s)是一个特定的观察序列,产生(i)次正面和(j)次反面。对于任何(0 < \theta < 1),有公式:
[P(s|\theta) = \binom{i + j}{i}\theta^i(1 - \theta)^

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值