定序回归模型

zoujiahui_2018

已于 2024-06-04 16:20:23 修改

阅读量5.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：概率统计 R 文章标签： r语言开发语言矩阵

于 2022-03-31 00:04:08 首次发布

本文链接：https://blog.youkuaiyun.com/qq_18055167/article/details/123859893

R 同时被 2 个专栏收录

60 篇文章

订阅专栏

概率统计

7 篇文章

订阅专栏

文章目录

什么是定序回归
模型构建
R语言实现
Python语言实现

什么是定序回归

定序回归的因变量是定序变量，数据类型是顺序数据。比如不满意，一般，满意；不合格，合格，优秀等。

模型构建

假设因变量是评分，先由单变量回归说起，则普通的线性回归模型为：
$\mathrm{score}=\beta_0+\beta_1\times x_1+\epsilon$
若上式中score不是连续变量，而是分类变量（例如取值为1，2，3，4）。这样等式两边的数据类型不统一，直接进行回归是没有意义的。我们考虑引入连续变量Z, 先让Z进行普通线性回归。
$Z=\beta_0+\beta_1\times x_1+\epsilon.$
并定义Z和score之间存在下面的关系：
$\mathrm{score}=\begin{cases} 1, \quad \text{if} \quad Z\leq c_1;\\ 2, \quad \text{if} \quad c_1<Z\leq c_2;\\ 3, \quad \text{if} \quad c_2< Z\leq c_3;\\ 4, \quad \text{if} \quad c_3< Z.\\ \end{cases}$
进一步可得:
当 $1\leq k<4$ 时，
$\begin{aligned} \Pr(\mathrm{score}\leq k)&=\Pr(Z\leq c_k)\\ &=\Pr(\beta_0+\beta_1\times x_1+\epsilon\leq c_k)\\ &=F_\epsilon(\alpha_k-\beta_1\times x_1); \end{aligned}$
当 $k = 4$ 时，
$\Pr(\mathrm{score}=4)=1-\Pr(\mathrm{score}\leq 3),$
其中， $\alpha_k=c_k-\beta_0$ , $F_\epsilon(\cdot)$ 表示 $\epsilon$ 的分布函数。

通过不同连接函数对 $F_\epsilon(\cdot)$ 进行建模可以得到不同形式的回归模型。

若用正态分布的分布函数 $\Phi(\cdot)$ 表示 $F_\epsilon(\cdot)$ , 可得到定序回归的Probit模型：
$\Pr(\mathrm{score}\leq k)=\Phi(\alpha_k-\beta_1\times x_1).$
进一步，有
$\Phi^{-1}\{\Pr(\mathrm{score}\leq k)\}=\alpha_k-\beta_1\times x_1.$
上式左边可以通过计算得到，右边即为线性表达式。需要注意的是，与OLS相比，截距项 $\alpha_k$ 是有k个。

若用Logist连接函数来表示表示 $F_\epsilon(\cdot)$ , 可得到定序回归的Logist模型：
$\Pr(\mathrm{score}\leq k)=\frac{\exp(\alpha_k-\beta_1\times x_1)}{1+\exp(\alpha_k-\beta_1\times x_1)}.$
进一步，有
$\mathrm{logit}\{\Pr(\mathrm{score}\leq k)\}=\log\left(\frac{\Pr(\mathrm{score}\leq k)}{1-\Pr(\mathrm{score}\leq k)}\right)=\alpha_k-\beta_1\times x_1.$

随后可以利用极大似然估计，得到参数 $\hat{\alpha}_1,\hat{\alpha}_2,...,\hat{\alpha}_4,\hat{\beta}_1$ .
$\hat{\alpha}_1,\hat{\alpha}_2,...,\hat{\alpha}_4,\hat{\beta}_1=\argmax_{\alpha_1,..,\alpha_4,\beta_1}\prod_{i=1}^n p(x_i;\alpha_1,..,\alpha_4,\beta_1),$
其中
$p(x_i;\alpha_1,..,\alpha_4,\beta_1)=\begin{cases} F_\epsilon(\alpha_1-\beta_1\times x_1),\quad \text{if}\quad \mathrm{score}_i=1;\\ F_\epsilon(\alpha_k-\beta_1\times x_1)-F_\epsilon(\alpha_{k-1}-\beta_1\times x_1),\quad \text{if}\quad \mathrm{score}_i=k, 1<k<4;\\ 1-F_\epsilon(\alpha_3-\beta_1\times x_1),\quad \text{if}\quad \mathrm{score}_i=4. \end{cases}$

R语言实现

library(MASS)
set.seed(1535)
df=data.frame(
  score=factor(sample(x=c(1,2,3),size=100,replace = TRUE,prob = c(0.3,0.3,0.4))),
  x1=rnorm(n=100,mean=0.1,sd=1),
  x2=rnorm(n=100,mean=-0.1,sd=1.5)
  )
head(df)
# score         x1         x2
# 1     3 -0.8999129  0.7749112
# 2     2  0.9048189  2.1696023
# 3     3  1.2148977 -1.7717242
# 4     1 -0.6594323 -0.8592811
# 5     3 -0.9922733  1.3890127
# 6     1 -1.1719010 -0.7299038
model=polr(score~.,data=df,Hess = TRUE,method = c('logistic'))
summary(model)
# 
# 
# Call:
#   polr(formula = score ~ ., data = df, Hess = TRUE, method = c("logistic"))
# 
# Coefficients:
#   Value Std. Error t value
# x1  0.2323     0.1999  1.1621
# x2 -0.0738     0.1310 -0.5633
# 
# Intercepts:
#   Value   Std. Error t value
# 1|2 -1.0663  0.2398    -4.4465
# 2|3  0.4586  0.2174     2.1094
# 
# Residual Deviance: 214.361 
# AIC: 222.361