指数族分布、广义线性模型、逻辑回归前传

本文介绍了伯努利分布及其在指数族分布中的形式,二项分布的概率密度与期望方差,并详细推导了逻辑回归作为广义线性模型的应用。

1、伯努利分布

伯努利分布(英语:Bernoulli distribution,又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。)若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p(0p1)q=1p

  • 其概率密度函数为:

    fX(x)=px(1p)1x=pif x=1,q=1pif x=0,0otherwise(1.1)
  • 其期望值为

    E(X)=i=01xifX(x)=0q+1p=p(1.2)
  • 其方差为
    var(X)=i=01(xiE(x))2fX(x)=(0p)2(1p)+(1p)2p=pq(1.3)

2、二项分布

二项分布为进行n次独立伯努利试验中成功的次数的离散概率分布。

2.1概率密度和累计概率密度

XnpXb(n,p)XB(n,p)

  • n次试验中正好得到k次成功的概率由概率质量函数:

    f(k;n,p)=Pr(K=k)=(nk)pk(1p)nk=C(n,k)pk(1p)nk=n!k!(nk)!pk(1p)nk
  • 累积概率密度函数为:

    F(x;n,p)=Pr(X<x)=i=0x(ni)pi(1p)ni

2.2、期望和方差

  • 期望为:
    • E(X)=np
  • 方差为:
    • var(X)=np(1p)

3、指数族分布

3.1、指数族通式

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布:

p(y;η)=b(y)exp(ηTT(y)a(η))

ηnatural parameterT(y)expa(η)

3.2、伯努利分布的指数形式

令伯努利分布的随机变量为y,发生的概率为p

y10
pϕ1ϕ

则概率密度为:

p(y;ϕ)=ϕy(1ϕ)1y=exp(lnϕy(1ϕ)1y)=exp(ylnϕ1ϕ+ln(1ϕ))(3.2.1)

把伯努利分布写成指数族分布形式则:

T(y)=y(3.2.2)

η=lnϕ1ϕ(3.2.3)

a(η)=ln(1ϕ)=ln(1+eη)(3.2.4)

b(y)=1(3.2.5)

4、广义线性模型

4.1、广义线性模型假设条件

yy(feature)x广线:

  1. p(y|x;θ)
  2. x,T(y)=yxE[T(y)|x]T(y)=y,hθ(x)=E[y|x].
  3. η x线:η=θTx.

4.2 逻辑回归

LRy0,1,p(y|x;θ) Bernoulli(ϕ),

hθ(x)=E(y|x;θ)(4.2.1)

因为伯努利分布期望性质,
E(y|x;θ)=ϕ(4.2.2)

并根据公式3.2.3可得:
ϕ=11+eη(4.2.3)

根据假设3η=θTx,4.2.14.2.24.2.3
hθ(x)=11+eθTx

逻辑回归(LR)的P(y=1|x)=11+eθTx,它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。

### 关于指数分布广义线性模型的关系 在统计学领域,广义线性模型(GLM)提供了一种灵活的方法来建模响应变量 \(y\) 其预测因子之间的关系。不同于经典的线性回归假定误差项遵循正态分布,在广义线性框架下,\(y\) 可以来自更广泛的概率分布——即所谓的指数分布[^1]。 #### 定义特性 指数分布是一类能够被表达成特定参数化形式的概率密度或质量函数集合。这类分布具有统一的数学结构,允许通过调整自然参数 \(\eta\) 来适应不同的实际应用场景。具体来说,当给定输入特征向量 \(x\) 后,目标变量 \(y| x; \theta\) 被认为是从某个具体的指数分布中抽取出来的样本[^4]。 对于某些常见的离散和连续数据类型,如计数资料、比例数据以及生存时间等,都存在相应的成员归属于此大家庭之中: - **伯努利分布**用于描述只有两种可能结果的现象; - **泊松分布**适用于处理事件发生次数的数据集; - **高斯/正态分布**则是衡量连续数值型测量值的标准工具之一[^2]; 这些特殊的案例展示了如何利用不同类型的指数分布构建适合各自特点的广义线性模型实例[^3]。 ### 应用场景举例 考虑到上述提到的各种情况,下面给出几个基于指数分布建立起来的具体应用例子: 1. 对于二分类问题,可以选择逻辑斯特回归作为解决方案,此时所依据的就是伯努利分布。 ```r glm(formula = outcome ~ ., family = binomial(), data = dataset) ``` 2. 当面对的是非负整数计数时,则可采用泊松回归来进行分析,它依赖于泊松分布的特点。 ```r glm(formula = count_variable ~ predictors, family = poisson(link="log"), data=dataset) ``` 3. 若研究对象涉及连续性的度量指标,并且满足近似常态的要求的话,那么传统的最小二乘法下的多元线性回归实际上就是一种特殊情况下的广义线性模型,这里的基础便是高斯分布。 ```r lm(formula = continuous_response ~ covariates, data = dataframe) ``` 综上所述,通过对各种不同类型的实际问题选用恰当的指数分布成员并将其融入到广义线性模型当中去,可以有效地提高模型拟合效果及其解释能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值