指数分布族(The Exponential Family)与广义线性模型(GLM,Generalized Linear Models)

本文介绍了广义线性模型(GLMs)的基本概念及其在逻辑回归中的应用。首先阐述了指数分布族的概念,并列举了属于该家族的常见分布。接着详细解释了构建广义线性模型所需的三个假设,最后通过实例说明如何使用这些理论建立逻辑回归模型。

参考:http://www.cnblogs.com/BYRans/p/4735409.html

在逻辑回归模型中我们假设:
这里写图片描述

在分类问题中我们假设:
这里写图片描述

他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族。

指数分布族(The Exponential Family)
定义:如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族:
这里写图片描述
公式中y是随机变量;h(x)称为基础度量值(base measure);

其中:
η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter);
T(y)称为充分统计量(sufficient statistics),通常T(y)=y;
a(η)称为对数分割函数(log partition function);
本质上是一个归一化常数,确保概率和为1。
当T(y)被固定时,a(η)、b(y)就定义了一个以η为参数的一个指数分布。我们变化η就得到这个分布的不同分布(distribution)。

伯努利分布属于指数分布族。伯努利分布均值为φ,写为Bernoulli(φ),是一个二值分布,y ∈ {0, 1}。所以p(y = 1; φ) = φ; p(y = 0; φ) = 1 − φ。当我们变化φ就得到了不同均值的伯努利分布。伯努利分布表达式转化为指数分布族表达式过程如下:

这里写图片描述
其中,
这里写图片描述
并且
η=log(φ/(1-φ))
φ=1/(1+e^-η)——这刚好还是logit的那个式子,logit本来也是一个二分类问题

高斯分布也属于指数分布族,推导过程如下:
这里写图片描述
其中:
这里写图片描述

许多其他分部也属于指数分布族,例如:伯努利分布(Bernoulli)、高斯分布(Gaussian)、多项式分布(Multinomial)、泊松分布(Poisson)、伽马分布(Gamma)、指数分布(Exponential)、β分布、Dirichlet分布、Wishart分布。

广义线性模型(GLMs)
在分类和回归问题中,我们通过构建一个关于x的模型来预测y。这种问题可以利用广义线性模型(Generalized linear models,GMLs)来解决。构建广义线性模型我们基于三个假设,也可以理解为我们基于三个设计决策,这三个决策帮助我们构建广义线性模型:

Assume:
(1)这里写图片描述

(2)Assume: 这里写图片描述

(3)Given x → Target:h(x)=E[T(y)|x]
Usually T(y)=y,so Given x → Target:h(x)=E[y|x]
Eg:
在逻辑回归中期望值是φ,因此目标函数h是φ=1/(1+e^-η);
在线性回归中期望值是μ,而高斯分布中μ=η,结合(2),因此线性回归中目标函数这里写图片描述

假设有一个预测问题:基于特征商店促销活动、最近的广告、天气、星期几等特征x,来预测商店在任一小时内的顾客数目y。
根据概率知识可知,x、y符合泊松分布。泊松分布属于指数分布族,我们可以利用上面的3个假设,构建一个广义线性模型来进行构建预测模型。

GLMs构建Logistic回归

逻辑回归可以用于解决二分类问题,而分类问题目标函数y是二值的离散值,y∈{0,1}。根据统计知识,二分类问题可以选择伯努利分布来构建模型。
在伯努利分布的指数分布族表达式中我们已知:η=log(φ/(1-φ)), φ=1/(1+e^-η)

根据GLMs三个假设:
(1)y|x;θ~Bernouli(φ),Exp Family;

(2) 这里写图片描述

(3)hθ(x)=E[y|x]=φ=1/(1+e^-η)=1/(1+e^-θTx)
这里写图片描述

接下来的工作就由梯度下降或牛顿方法来完成θ的确定……
所以logit回归选择Sigmoid函数的原因就是基于GLMs理论吧……

### 广义一般线性模型的知识点总结 广义一般线性模型是多元统计分析中的重要部分,涵盖了回归分析的扩展形式以及对非正态分布数据的建模方法。以下是《多元统计分析及R语言建模》第五版第五章中关于广义一般线性模型的关键知识点总结: #### 1. 一般线性模型(General Linear Model, GLM) 一般线性模型是经典回归分析的扩展形式,允许因变量为连续型变量,并假设误差项服从正态分布。其基本形式如下: \[ Y = X\beta + \epsilon \] 其中 \( Y \) 是因变量向量,\( X \) 是自变量矩阵,\( \beta \) 是回归系数向量,\( \epsilon \) 是误差向量[^1]。 - **假设条件**: - 因变量 \( Y \) 是连续型变量。 - 误差项 \( \epsilon \sim N(0, \sigma^2I) \),即误差项独立且同分布于均值为0、方差为 \( \sigma^2 \) 的正态分布。 - 自变量 \( X \) 是固定的或随机但误差项不相关。 - **估计方法**: - 使用最小二乘法(OLS)估计回归系数 \( \beta \)。 - 模型拟合优度可以通过 \( R^2 \) 或调整后的 \( R^2 \) 来评估。 #### 2. 广义线性模型Generalized Linear Model, GLM广义线性模型是对一般线性模型的进一步扩展,能够处理非正态分布的因变量。其核心思想是通过连接函数将因变量的期望值自变量的线性组合联系起来。 - **模型结构**: \[ g(E(Y)) = X\beta \] 其中 \( g(\cdot) \) 是连接函数(link function),用于将因变量的期望值映射到线性预测空间。 - **分布族**: 广义线性模型假设因变量 \( Y \) 属于指数分布族,包括但不限于以下几种分布: - 正态分布(Normal) - 二项分布(Binomial) - 泊松分布(Poisson) - 指数分布(Exponential) - **连接函数**: 连接函数的选择取决于因变量的分布类型。例如: - 对于正态分布,使用恒等连接函数 \( g(\mu) = \mu \)。 - 对于二项分布,常用逻辑斯蒂连接函数 \( g(\mu) = \log\left(\frac{\mu}{1-\mu}\right) \)。 - 对于泊松分布,常用对数连接函数 \( g(\mu) = \log(\mu) \)。 - **估计方法**: 广义线性模型通常使用极大似然估计(MLE)来估计回归系数 \( \beta \)。 #### 3. 多元对数线性模型 多元对数线性模型是一种特殊的广义线性模型,适用于计数数据的建模。其基本形式为: \[ \log(\mu_{ijk}) = \beta_0 + \beta_1X_i + \beta_2Y_j + \beta_3Z_k + \cdots \] 其中 \( \mu_{ijk} \) 表示计数数据的期望值,\( X_i, Y_j, Z_k \) 是分类变量的哑变量编码[^1]。 - **R语言实现**: 使用 `glm()` 函数进行建模时,需指定分布族为泊松分布和对数连接函数: ```r log.glm <- glm(G ~ factor(X) + factor(Y) + factor(Z), family = poisson(link = log), data = d5.4) summary(log.glm) ``` #### 4. 模型诊断评估 - **残差分析**:检查模型残差是否满足假设条件,例如正态性和独立性。 - **拟合优度检验**:对于广义线性模型,可以使用偏差(Deviance)统计
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值