指数分布族

点击上方“大数据与人工智能”,“星标或置顶公众号”

第一时间获取好内容

640?wx_fmt=gif

640?wx_fmt=png


作者丨stephenDC

这是作者的第10篇文章



在《Pattern Recognition and Machine Learning》一书的第2章第4节,作者Bishop对指数分布族进行了非常全面系统的讲解。


本文绝大部分都可以看做是原文的直接翻译,部分加入了自己的思考,有些公式推导可能与原文略有不同。本人自认不能写的更好,因此手头有这本书的读者朋友,建议去看原文。

 

我们为什么要研究指数分布族呢?


主要有两个原因:一是因为指数分布族所包含的各种概率分布非常常用;二是指数分布族具有很好的性质,非常好用


下文先给出指数分布族的定义,然后举出指数分布族的三个常见的实例,最后说明指数分布族的极大似然估计、充分统计量、共轭先验和无信息先验等性质。



  • 指数分布族的定义


640?wx_fmt=png



  • 三个实例


下面我们证明,伯努利分布,多项式分布和高斯分布,都可以写成以上定义的形式。


640?wx_fmt=png


640?wx_fmt=png

640?wx_fmt=png


640?wx_fmt=png

640?wx_fmt=png

 


  • 极大似然估计


640?wx_fmt=png


640?wx_fmt=png



  • 充分统计量


640?wx_fmt=png

 点击上图可跳转去阅读《极大似然估计、极大后验估计和贝叶斯估计》原文)


  • 共轭先验


640?wx_fmt=png

 


  • 无信息先验


640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png

640?wx_fmt=png


 


640?wx_fmt=png

小结

640?wx_fmt=png


读到这里,不妨思考一个问题,指数分布族为什么要这样定义?

篇幅有限,有兴趣的同学,欢迎评论区交流。



-end-

 



相关阅读

在线抽奖活动中如何实现中奖概率的自适应调整  

罗素的理发师和奥卡姆剃刀

机器学习中的维度灾难

集成学习之如何由弱变强

极大似然估计、极大后验估计和贝叶斯估计

稀疏核机(上)—SVM回顾

稀疏核机(中)-核方法

稀疏核机(下)—稀疏性

机器学习中常用的几个概率不等式及证明


640?wx_fmt=png

### 关于指数分布族与广义线性模型的关系 在统计学领域,广义线性模型(GLM)提供了一种灵活的方法来建模响应变量 \(y\) 与其预测因子之间的关系。不同于经典的线性回归假定误差项遵循正态分布,在广义线性框架下,\(y\) 可以来自更广泛的概率分布——即所谓的指数分布族[^1]。 #### 定义与特性 指数分布族是一类能够被表达成特定参数化形式的概率密度或质量函数集合。这类分布具有统一的数学结构,允许通过调整自然参数 \(\eta\) 来适应不同的实际应用场景。具体来说,当给定输入特征向量 \(x\) 后,目标变量 \(y| x; \theta\) 被认为是从某个具体的指数型分布中抽取出来的样本[^4]。 对于某些常见的离散和连续数据类型,如计数资料、比例数据以及生存时间等,都存在相应的成员归属于此大家庭之中: - **伯努利分布**用于描述只有两种可能结果的现象; - **泊松分布**适用于处理事件发生次数的数据集; - **高斯/正态分布**则是衡量连续数值型测量值的标准工具之一[^2]; 这些特殊的案例展示了如何利用不同类型的指数分布构建适合各自特点的广义线性模型实例[^3]。 ### 应用场景举例 考虑到上述提到的各种情况,下面给出几个基于指数分布族建立起来的具体应用例子: 1. 对于二分类问题,可以选择逻辑斯特回归作为解决方案,此时所依据的就是伯努利分布。 ```r glm(formula = outcome ~ ., family = binomial(), data = dataset) ``` 2. 当面对的是非负整数计数时,则可采用泊松回归来进行分析,它依赖于泊松分布的特点。 ```r glm(formula = count_variable ~ predictors, family = poisson(link="log"), data=dataset) ``` 3. 若研究对象涉及连续性的度量指标,并且满足近似常态的要求的话,那么传统的最小二乘法下的多元线性回归实际上就是一种特殊情况下的广义线性模型,这里的基础便是高斯分布。 ```r lm(formula = continuous_response ~ covariates, data = dataframe) ``` 综上所述,通过对各种不同类型的实际问题选用恰当的指数分布成员并将其融入到广义线性模型当中去,可以有效地提高模型拟合效果及其解释能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值