指数族分布和广义线性模型

本文介绍了指数族分布的基本概念,并展示了如何将常见的概率分布如伯努利分布和高斯分布表示为指数族分布。此外,还详细解释了广义线性模型(GLM)的概念,并通过实例说明了逻辑回归(LR)和最小二乘法如何被归类为广义线性模型。

本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。

指数族分布

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。

p(y;η)=b(y)exp(ηTT(y)a(η))

其中η的指数族分布.
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。

  • 伯努利分布
    p(y;ϕ)=ϕy(1ϕ)1y=exp[ylogϕ+(1y)log(1ϕ)]=exp[ylogϕ1ϕ+log(1ϕ)]

    把伯努利分布可以写成指数族分布的形式,且
    T(y)=yη=logϕ1ϕa(η)=log(1ϕ)=log(1+eη)b(y)=1

    同时我们可以看到ϕ=11+eη, 居然是logistic sigmoid的形式,后面在讨论LR是广义线性模型时,也会用到。

高斯分布

高斯分布也可以写为指数族分布的形式如下:

p(y;μ)=12π−−√exp(12(yμ)2)=12π−−√exp(12y2)exp(μy12μ2)
p(y;\mu) =\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2) \\

我们假设方差为1,当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式,对应的

η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12π−−√exp(12y2)
\eta = \mu \\ T(y) = y \\ a(\eta) = \mu^2/2 = \eta^2 /2 \\

广义线性模型 (Generalized linear model, GLM)

本节将讲述广义线性模型的概念,以及LR,最小二乘为何也属于广义线性模型。

考虑一个分类或回归问题,我们就是想预测某个随机变量y的函数。为了推导广义线性模式,我们必须做出如下三个假设

  1. p(y|x;θ) 服从指数族分布
  2. 给了x
  3. 参数η

在这三个假设(也可以理解为一种设计)的前提下,我们可以推导出一系列学习算法,称之为广义线性模型(GLM)。下面我们可以推导出一系列算法,称之为广义线性模型GLM. 下面举两个例子:

最小二乘法

假设p(y|x;θ)N(μ,σ2),那么

hθ(x)=E[y|x;θ]=μ=η=θTx
h_\theta(x) = E[y|x;\theta] \\ =\mu \\ =\eta \\
第一行因为假设2,第二行因为高斯分布的特点,第三行根据上面高斯分布为指数族分布的推导,第四行因为假设3

逻辑回归 LR

考虑LR二分类问题,y0,1),即服从伯努利分布。那么

hθ(x)=E[y|x;θ]=ϕ=11+eη=11+eθTx
h_\theta(x) = E[y|x;\theta] \\ =\phi \\ =\frac{1}{1+e^{-\eta}} \\
第一行因为假设2,第二行因为伯努利分布的性质,第三行因为伯努利分布为指数族分布时的推导,第四行因为假设3.

所以我们终于知道逻辑回归LR的P(y=1|x)=11+eθTx从何而来了。它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。

参考:
本文主要参加Andrew ng的机器学习讲义


### 关于指数分布广义线性模型的关系 在统计学领域,广义线性模型(GLM)提供了一种灵活的方法来建模响应变量 \(y\) 与其预测因子之间的关系。不同于经典的线性回归假定误差项遵循正态分布,在广义线性框架下,\(y\) 可以来自更广泛的概率分布——即所谓的指数分布[^1]。 #### 定义与特性 指数分布是一类能够被表达成特定参数化形式的概率密度或质量函数集合。这类分布具有统一的数学结构,允许通过调整自然参数 \(\eta\) 来适应不同的实际应用场景。具体来说,当给定入特征向量 \(x\) 后,目标变量 \(y| x; \theta\) 被认为是从某个具体的指数分布中抽取出来的样本[^4]。 对于某些常见的离散连续数据类型,如计数资料、比例数据以及生存时间等,都存在相应的成员归属于此大家庭之中: - **伯努利分布**用于描述只有两种可能结果的现象; - **泊松分布**适用于处理事件发生次数的数据集; - **高斯/正态分布**则是衡量连续数值型测量值的标准工具之一[^2]; 这些特殊的案例展示了如何利用不同类型的指数分布构建适合各自特点的广义线性模型实例[^3]。 ### 应用场景举例 考虑到上述提到的各种情况,下面给出几个基于指数分布建立起来的具体应用例子: 1. 对于二分类问题,可以选择逻辑斯特回归作为解决方案,此时所依据的就是伯努利分布。 ```r glm(formula = outcome ~ ., family = binomial(), data = dataset) ``` 2. 当面对的是非负整数计数时,则可采用泊松回归来进行分析,它依赖于泊松分布的特点。 ```r glm(formula = count_variable ~ predictors, family = poisson(link="log"), data=dataset) ``` 3. 若研究对象涉及连续性的度量指标,并且满足近似常态的要求的话,那么传统的最小二乘法下的多元线性回归实际上就是一种特殊情况下的广义线性模型,这里的基础便是高斯分布。 ```r lm(formula = continuous_response ~ covariates, data = dataframe) ``` 综上所述,通过对各种不同类型的实际问题选用恰当的指数分布成员并将其融入到广义线性模型当中去,可以有效地提高模型拟合效果及其解释能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值