通用形式
简介
广义线性模型(Generalized Linear Model),将线性模型通过联结函数(link function)联结线性预测值(linear prediction)(即线性模型的直接输出)和期望输出值(expected value)[1].[2];通过寻找因变量(dependent variables)所属的指数族分布(exponential family distribution),建立合适联结函数,将线性模型的输出映射到期望输出,损失函数通常是指数族分布的似然函数(likelihood function)[1].[2].[3];即采用极大似然函数求取损失函数。
L M : y ^ = W ⊤ X + ϵ G L M : y ^ = g ( W ⊤ X + ϵ ) \begin{aligned} LM:\; &{\hat{y}}=W^\top X+\epsilon\\ GLM:\; &{\hat{y}}=g(W^\top X+\epsilon)\\ \end{aligned} LM:GLM:y^=W⊤X+ϵy^=g(W⊤X+ϵ)
可采用一对一(One Versus One)、一对多(One Versus Rest)、归一化指数函数(softmax function)等策略转变为多分类问题[1].[4]。
s o f t m a x : S i = exp z i ∑ j = 1 n exp z j softmax:\;S_i=\frac{\exp{z_i}}{\sum_{j=1}^n\exp{z_j}} softmax:Si=∑j=1nexpzjexpzi
广义线性模型由于使用了联结函数,所以对数据分布有假设(指数族分布);所以可进行一定的预处理使数据分布更符合指数族分布,有助于提高模型得分(model score)[4]。
对比极大似然估计(Maximum Likelihood Estimate, MLE)本质,可知广义线性模型和极大似然估计都有假设,且进行逐点估计(point-wise estimate),因此[10];
p o s t e r i o r = l i k e l i h o o d ∗ p r i o r / e v i d e n c e M L E : P ( α ∣ y ) = P ( y ∣ α ) ∗ P ( α ) / P ( y ) = L ( α ∣ y ) ∗ P ( α ) / P ( y ) L ( α ∣ y ) = max α ∑ i ln p ( y i ∣ α ) \begin{aligned} {\color{gray}{posterior}} &= {\color{red}{likelihood}} * {\color{blue}{prior}} / {\color{green}{evidence}}\\ MLE: {\color{gray}{P(\alpha∣y)}} &= {\color{red}{P(y∣\alpha)}} * {\color{blue}{P(\alpha)}} / {\color{green}{P(y)}}\\ &={\color{red}{L(\alpha∣y)}} * {\color{blue}{P(\alpha)}} / {\color{green}{P(y)}}\\ {\color{red}{L(\alpha∣y)}} &=\max_\alpha{\sum_i\ln{p(y_i|\alpha)}} \end{aligned} posteriorMLE:P(α∣y)L(α∣y)=likelihood∗prior/evidence=P(y∣α)∗P(α)/P(y)=L(α∣y)∗P(α)/P(y)=αmaxi∑lnp(yi∣α)
重要概念
属性
:参数模型(parametric models)、监督学习(supervised learning)、判别模型(discriminant model)、支持核方法(kernel methods)、面试常考。
求解
:使用指数族分布的似然损失函数计算经验风险(empirical risk),可加入正则化项(normalization term)计算结构风险(structural risk):凸函数证明后1.进行凸优化(convex optimization),2.使用梯度下降方法,包括随机梯度下降(Stochastic Gradient Descent)、牛顿法(Newton method)。
扩展
:广义线性模型无法解决非线性模型问题,可引入核方法;线性回归正则化的三种形式;对数几率回归扩展到多元回归(softmax regression)。
指数族分布
指数族分布是指概率密度函数(probability density function)满足下面分布公式[2].[3].[5]:
f ( y ; θ , ϕ ) = A ( ϕ ) exp [ y ⋅ θ − B ( θ ) ϕ − C ( y , ϕ ) ] X β = g ( μ ) d e f i n e : θ : 自 然 实 参 ; ϕ : 离 散 实 参 A : 单 参 实 函 ; B : 单 参 实 函 ; C : 双 参 实 函 g : 联 结 函 数 \begin{aligned} &f(y;\theta,\phi)=A(\phi)\exp[\frac{y\cdot\theta-B(\theta)}{\phi}−C(y,\phi)] \\ &X\beta=g(\mu)\\ define: &\theta:自然实参;\phi:离散实参\\ &A:单参实函;B:单参实函;C:双参实函\\ &g:联结函数\\ \end{aligned} define:f(y;θ,ϕ)=A(ϕ)exp[ϕy⋅θ−B(θ)−C(y,ϕ)]Xβ=g(μ)θ:自然实参;ϕ:离散实参A:单参实函;B:单参实函;C:双参实函g:联结函数
举例:高斯分布( x ∼ N ( μ , σ 2 ) x\sim N(\mu,\sigma^2) x∼N(μ,σ2)),也是线性回归中 ϵ \epsilon ϵ的假设分布(假设数据沿真实回归线左右呈高斯分布),故可知:设分布方差 σ \sigma σ对线性回归参数不干扰[2].[3].[5]
概 率 密 度 函 数 : f g ( x ; μ , σ 2 ) = 1 σ 2 π exp ( − ( x − μ ) 2 2 σ 2 ) 指 数 族 分 布 : f ( y ; θ , ϕ ) = A ( ϕ ) exp [ y ⋅ θ − B ( θ ) ϕ − C ( y , ϕ ) ] f g ( x ; μ , σ 2 ) = 1 σ 2 π exp [ − 2 x ⋅ μ − 1 2 μ 2 σ 2 − x 2 σ 2 ] 联 结 函 数 : g ( μ ) = X β = μ \begin{aligned} 概率密度函数: f_{g}(x;\mu,\sigma^2) &=\frac{1}{\sigma\sqrt{2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})\\ 指数族分布: f(y;{\color{blue}{\theta}},{\color{orange}{\phi}}) &={\color{red}{A(\phi)}} \exp[\frac{y\cdot {\color{blue}{\theta}}-{\color{green}{B(\theta)}}} {
{\color{orange}{\phi}}}−{\color{brown}{C(y,\phi)}}]\\ f_{g}(x;{\color{blue}{\mu}},{\color{orange}{\sigma^2}}) &={\color{red}{\frac{1}{\sigma\sqrt{2\pi}}}} \exp[{\color{gray}{-2}}\frac{x\cdot {\color{blue}{\mu}}-{\color{green}{\frac{1}{2}\mu^2}}} {
{\color{orange}{\sigma^2}}}-{\color{brown}{x^2\sigma^2}}] \\ 联结函数:g(\mu) &=X\beta=\mu \\ \end{aligned}\\ 概率密度函数:fg(x;μ,σ2)指数族分布:f(y;θ,ϕ)fg(x;μ,σ2)联结函数:g(μ)=σ2π1exp(−2σ2(x−μ)2)=A(ϕ)exp[ϕy⋅θ−B(θ)−C(y,ϕ)]=σ2π1exp[−2σ2x⋅μ−21μ2−x2σ2]=Xβ=μ
线性回归
线性回归作为最简单的广义线性模型,本身拥有以下假设:为什么线性回归中 要将自变量设定为非随机变量?伍德里奇的导论好像是设为非随机变量的,