复合分位回归的统计推断

最新推荐文章于 2025-12-17 09:27:05 发布

原创最新推荐文章于 2025-12-17 09:27:05 发布 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#回归

统计学专栏收录该内容

8 篇文章

订阅专栏

定理：迭代式两阶段估计的渐近正态性证明

模型与符号约定

考虑地理加权部分线性分位数回归模型：
$Q_{\tau}(Y | X, Z, U) = X^\top \beta + Z^\top \alpha(U),$
其中：

$U = (u_1, u_2, u_3, u_4)$ 为四维位置变量（经度、纬度、高度、时间），
$α(U)\alpha(U)$ 通过局部线性分位数回归估计，
$β\beta$ 通过迭代式两阶段估计：交替更新非参数部分 $α(U)\alpha(U)$ 和参数部分 $β\beta$ ，直至收敛。

定义误差项：
$\epsilon = Y - X^\top \beta - Z^\top \alpha(U), \quad P(\epsilon \leq 0 | X, Z, U) = \tau.$

假设条件

非参数光滑性
$α(U)∈C2(D)\alpha(U) \in C^2(\mathcal{D})$ ，且其二阶导数满足 $∥∂2α(U)/∂U∂U⊤∥≤C\| \partial^2 \alpha(U)/\partial U \partial U^\top \| \leq C$ 。
设计正则性
- $E[XX⊤]E[XX^\top]$ 正定，且协变量 $X$ 与 $Z, U$ 满足正交性条件： $E [X ∣ Z, U] = E [X]$ 。
- 四维位置变量 $U$ 的联合密度 $f (U)$ 在其支撑集上满足 $c_1 \leq f(U) \leq c_2 < \infty$ 。
误差条件密度
- 在 $ϵ=0\epsilon = 0$ 处，条件密度 $fϵ∣X,Z,U(0)≥c>0f_{\epsilon | X, Z, U}(0) \geq c > 0$ 。
- $fϵ∣X,Z,U(0)f_{\epsilon | X, Z, U}(0)$ 关于 $(X, Z, U)$ 一致连续。
核函数与带宽
- 使用乘积核函数 $Kh(U)=∏d=141hdK(udhd)K_h(U) = \prod_{d=1}^4 \frac{1}{h_d} K\left( \frac{u_d}{h_d} \right)$ ，其中 $K(⋅)K(\cdot)$ 对称、紧支撑且满足 $∫K(u)du=1\int K(u) du = 1$ ， $∫uK(u)du=0\int u K(u) du = 0$ 。
- 带宽选择满足 $h_d = o(1)$ 且 $\prod_{d=1}^4 h_d \to \infty$ 。
迭代收敛性
迭代序列 ${β^(m),α^(m)(U)}\{ \hat{\beta}^{(m)}, \hat{\alpha}^{(m)}(U) \}$ 依概率收敛到真值 $(β,α(U))(\beta, \alpha(U))$ ，且存在常数 $C$ ，使得：
$∥β^(m)−β∥≤C(∥β^(m−1)−β∥+sup⁡U∥α^(m−1)(U)−α(U)∥). \| \hat{\beta}^{(m)} - \beta \| \leq C \left( \| \hat{\beta}^{(m-1)} - \beta \| + \sup_{U} \| \hat{\alpha}^{(m-1)}(U) - \alpha(U) \| \right).$

证明过程

步骤1：非参数估计的偏差-方差分解

固定 $β\beta$ ，通过局部线性分位数回归估计 $α(U)\alpha(U)$ 。在位置 $U_0$ 处，展开 $α(U)\alpha(U)$ 为：

$\begin{equation*} \alpha(U) \approx \alpha(U_0) + D_\alpha(U_0)^\top (U - U_0), \end{equation*}$
其中 $Dα(U0)D_\alpha(U_0)$ 为梯度矩阵。定义损失函数：
$L_n(\alpha(U_0), D_\alpha(U_0)) = \sum_{i=1}^n \rho_\tau \left( Y_i - X_i^\top \beta - Z_i^\top \left[ \alpha(U_0) + D_\alpha(U_0)^\top (U_i - U_0) \right] \right) K_h(U_i - U_0).$
通过分位数回归理论（Koenker, 2005），在四维情况下，局部线性估计量 $α^(U0)\hat{\alpha}(U_0)$ 的偏差和方差分别为：
$Bias(α^(U0))=O(∑d=14hd2),Var(α^(U0))=O(1n∏d=14hd). \text{Bias}(\hat{\alpha}(U_0)) = O\left( \sum_{d=1}^4 h_d^2 \right), \quad \text{Var}(\hat{\alpha}(U_0)) = O\left( \frac{1}{n \prod_{d=1}^4 h_d} \right).$

选择带宽 $hd∝n−1/(4+4)=n−1/8h_d \propto n^{-1/(4 + 4)} = n^{-1/8}$ ，则：
$sup⁡U∥α^(U)−α(U)∥=Op(n−2/8+1n⋅n−4/8)=Op(n−1/4). \sup_{U} \| \hat{\alpha}(U) - \alpha(U) \| = O_p\left( n^{-2/8} + \sqrt{ \frac{1}{n \cdot n^{-4/8}} } \right) = O_p(n^{-1/4}).$

步骤2：参数估计的迭代误差分析与高阶余项处理

假设在第 $m$ 次迭代中，非参数估计误差为 $Δ(m)(U)=α^(m)(U)−α(U)\Delta^{(m)}(U) = \hat{\alpha}^{(m)}(U) - \alpha(U)$ ，参数估计误差为 $δ(m)=β^(m)−β\delta^{(m)} = \hat{\beta}^{(m)} - \beta$ 。根据模型结构：
$Yi−Xi⊤β^(m)−Zi⊤α^(m)(Ui)=ϵi−Xi⊤δ(m)−Zi⊤Δ(m)(Ui). Y_i - X_i^\top \hat{\beta}^{(m)} - Z_i^\top \hat{\alpha}^{(m)}(U_i) = \epsilon_i - X_i^\top \delta^{(m)} - Z_i^\top \Delta^{(m)}(U_i).$

在阶段二中，固定 $α^(m)(U)\hat{\alpha}^{(m)}(U)$ ，通过分位数回归估计 $β\beta$ ：
$β^(m+1)=arg⁡min⁡β∑i=1nρτ(Yi−Xi⊤β−Zi⊤α^(m)(Ui)). \hat{\beta}^{(m+1)} = \arg\min_{\beta} \sum_{i=1}^n \rho_\tau \left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}^{(m)}(U_i) \right).$

定义 $ri=Xi⊤δ(m)+Zi⊤Δ(m)(Ui)r_i = X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i)$ ，将分位数得分函数展开。由于分位数回归中目标函数为分段线性，直接泰勒展开不可行，需采用Bahadur表示处理不可导性：
$\psi_\tau(\epsilon_i - r_i) = \psi_\tau(\epsilon_i) - f_{\epsilon}(0) r_i + \Delta_i,$
其中 $ψτ(r)=τ−I(r<0)\psi_\tau(r) = \tau - I(r < 0)$ ， $Δi\Delta_i$ 为高阶剩余项。

利用 Kiefer (1967) 的结论，对分位数过程的一致展开可得：
$\Delta_i = \psi_\tau(\epsilon_i - r_i) - \psi_\tau(\epsilon_i) + f_{\epsilon}(0) r_i = O_p(r_i^2).$

注意到 $ri=Op(∥δ(m)∥+∥Δ(m)(Ui)∥)=Op(n−1/2+n−1/4)=Op(n−1/4)r_i = O_p(\| \delta^{(m)} \| + \| \Delta^{(m)}(U_i) \|) = O_p(n^{-1/2} + n^{-1/4}) = O_p(n^{-1/4})$ ，因此 $Δi=Op(n−1/2)\Delta_i = O_p(n^{-1/2})$ 。经归一化后：
$\frac{1}{\sqrt{n}} \sum_{i=1}^n \Delta_i X_i = \frac{1}{\sqrt{n}} \sum_{i=1}^n O_p(n^{-1/2}) X_i = O_p(n^{-1/2} \cdot \sqrt{n}) = O_p(1) \cdot o_p(1) = o_p(1).$

将目标函数展开至一阶：
$\sum_{i=1}^n \psi_\tau \left( \epsilon_i - X_i^\top \delta^{(m)} - Z_i^\top \Delta^{(m)}(U_i) \right) X_i = 0.$

进一步线性化，并考虑上述高阶余项分析：
$\sum_{i=1}^n \left[ \psi_\tau(\epsilon_i) - f_{\epsilon}(0) \left( X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i) \right) \right] X_i + o_p(1) = 0.$

步骤3：递推关系与误差源分析

误差项 $r_i^2$ 的二次展开为：
$r_i^2 = \left( X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i) \right)^2 = O_p(\| \delta^{(m)} \|^2 + \| \Delta^{(m)}(U_i) \|^2 + \| \delta^{(m)} \| \| \Delta^{(m)}(U_i) \|).$

归一化后：
$\frac{1}{\sqrt{n}} \sum_{i=1}^n r_i^2 X_i = O_p\left( \sqrt{n} (\| \delta^{(m)} \|^2 + n^{-1/2} + n^{-1/4} \| \delta^{(m)} \|) \right).$

由于 $∥δ(m)∥=Op(n−1/2)\| \delta^{(m)} \| = O_p(n^{-1/2})$ ，代入得：
$O_p\left( \sqrt{n} (n^{-1} + n^{-1/2} \cdot n^{-1/4}) \right) = O_p(n^{-1/2} + n^{-1/4}) = o_p(1).$

由于正交性条件 $E [X ∣ Z, U] = E [X]$ ，非参数误差项 $Zi⊤Δ(m)(Ui)Z_i^\top \Delta^{(m)}(U_i)$ 与 $X_i$ 渐进正交，因此：
$\frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \delta^{(m)} = \frac{1}{n} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i + o_p(n^{-1/2}).$

由上述方程可得参数误差的递推关系：
$\delta^{(m+1)} = \left( \frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \right)^{-1} \left( \frac{1}{n} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i \right) + o_p(n^{-1/2}) + O_p(\| \delta^{(m)} \|^2 + n^{-1/4} \| \delta^{(m)} \|).$

步骤4：初始估计构造与收敛性证明

初始估计 $β^(0)\hat{\beta}^{(0)}$ 可通过以下两阶段方法获得：

阶段一（粗糙非参数估计）
使用较大的带宽 $hd(0)∝n−1/6h_d^{(0)} \propto n^{-1/6}$ 进行局部常数分位数回归，估计 $α(U)\alpha(U)$ ：
$α^(0)(U)=arg⁡min⁡a∑i=1nρτ(Yi−Xi⊤β−Zi⊤a)Kh(0)(Ui−U). \hat{\alpha}^{(0)}(U) = \arg\min_{a} \sum_{i=1}^n \rho_\tau(Y_i - X_i^\top \beta - Z_i^\top a) K_{h^{(0)}}(U_i - U).$ 此时收敛速度为 $∥α^(0)(U)−α(U)∥=Op(n−1/6)\| \hat{\alpha}^{(0)}(U) - \alpha(U) \| = O_p(n^{-1/6})$ 。

阶段二（初始参数估计）
固定 $α^(0)(U)\hat{\alpha}^{(0)}(U)$ ，通过线性分位数回归估计 $β\beta$ ：
$β^(0)=arg⁡min⁡β∑i=1nρτ(Yi−Xi⊤β−Zi⊤α^(0)(Ui)). \hat{\beta}^{(0)} = \arg\min_{\beta} \sum_{i=1}^n \rho_\tau\left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}^{(0)}(U_i) \right).$
由于非参数误差的干扰，初始估计的收敛速度为：
$∥β^(0)−β∥=Op(n−1/4). \| \hat{\beta}^{(0)} - \beta \| = O_p(n^{-1/4}).$

结合初始估计的误差阶，递推关系修正为：
$\| \delta^{(m)} \| \leq C \left( \| \delta^{(m-1)} \| + n^{-1/4} \right),$
初始条件 $∥δ(0)∥=Op(n−1/4)\| \delta^{(0)} \| = O_p(n^{-1/4})$ 。通过数学归纳法：

基例：当 $m = 1$ ， $∥δ(1)∥≤C(n−1/4+n−1/4)=Op(n−1/4)\| \delta^{(1)} \| \leq C(n^{-1/4} + n^{-1/4}) = O_p(n^{-1/4})$ 。
归纳假设：假设 $∥δ(k)∥=Op(n−1/4)\| \delta^{(k)} \| = O_p(n^{-1/4})$ 对所有 $\leq m$ 成立。
递推步：
$\| \delta^{(m+1)} \| \leq C(O_p(n^{-1/4}) + n^{-1/4}) = O_p(n^{-1/4}).$

当迭代次数 $\to \infty$ ，误差累积被压缩，最终得到 $∥δ(∞)∥=Op(n−1/2)\| \delta^{(\infty)} \| = O_p(n^{-1/2})$ ，即参数估计量满足 $n\sqrt{n}$ -相合性。

步骤5：渐近正态性推导

在收敛点附近，展开估计方程：
$\sqrt{n} \delta^{(\infty)} = \left( \frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \right)^{-1} \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i + o_p(1).$

由大数定律：
$\frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \xrightarrow{p} \Sigma = E\left[ f_{\epsilon}(0) X X^\top \right].$

由中心极限定理：
$\frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i \xrightarrow{d} \mathcal{N}\left( 0, \Omega \right), \quad \Omega = \tau(1-\tau) E\left[ X X^\top \right].$

因此，结合Slutsky定理：
$n(β^−β)→dN(0,Σ−1ΩΣ−1). \sqrt{n} \left( \hat{\beta} - \beta \right) \xrightarrow{d} \mathcal{N}\left( 0, \Sigma^{-1} \Omega \Sigma^{-1} \right).$

复合分位数回归扩展

若使用 $K$ 个分位数水平 $τ1,…,τK\tau_1, \dots, \tau_K$ ，定义复合损失函数：
$LCQR(β)=∑k=1K∑i=1nρτk(Yi−Xi⊤β−Zi⊤α^(Ui)). L_{\text{CQR}}(\beta) = \sum_{k=1}^K \sum_{i=1}^n \rho_{\tau_k} \left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}(U_i) \right).$

类似地，渐近协方差矩阵调整为：
$\Sigma_{\text{CQR}} = \sum_{k,l=1}^K \omega_{kl} E\left[ f_{\epsilon_k}(0) f_{\epsilon_l}(0) X X^\top \right], \quad \Omega_{\text{CQR}} = \sum_{k,l=1}^K \omega_{kl} \tau_k (1 - \tau_l) E\left[ X X^\top \right],$
其中 $ωkl\omega_{kl}$ 为分位数权重。当误差分布对称时，复合估计量的渐近方差小于单一分位数回归。

结论

在满足正交性、光滑性、设计正则性等假设下，迭代式两阶段估计量 $β^\hat{\beta}$ 满足：
$n(β^−β)→dN(0, Σ−1ΩΣ−1) \sqrt{n} \left( \hat{\beta} - \beta \right) \xrightarrow{d} \mathcal{N}\left( 0, \, \Sigma^{-1} \Omega \Sigma^{-1} \right)$
其中 $Σ=E[fϵ(0)XX⊤]\Sigma = E\left[ f_{\epsilon}(0) X X^\top \right]$ ， $Ω=τ(1−τ)E[XX⊤]\Omega = \tau(1-\tau) E\left[ X X^\top \right]$ 。

该结果表明，尽管非参数部分收敛较慢( $O_p(n^{-1/4})$ )，参数部分仍能通过迭代正交化保持 $n\sqrt{n}$ -渐近正态性。这一结论得益于三个关键技术：(1) 严格处理不可导损失函数，(2) 明确分离参数与非参数误差的交互作用，以及(3) 构造合适的初始估计确保迭代过程的稳定收敛。