定理:迭代式两阶段估计的渐近正态性证明
模型与符号约定
考虑地理加权部分线性分位数回归模型:
Qτ(Y∣X,Z,U)=X⊤β+Z⊤α(U),
Q_{\tau}(Y | X, Z, U) = X^\top \beta + Z^\top \alpha(U),
Qτ(Y∣X,Z,U)=X⊤β+Z⊤α(U),
其中:
- U=(u1,u2,u3,u4)U = (u_1, u_2, u_3, u_4)U=(u1,u2,u3,u4) 为四维位置变量(经度、纬度、高度、时间),
- α(U)\alpha(U)α(U) 通过局部线性分位数回归估计,
- β\betaβ 通过迭代式两阶段估计:交替更新非参数部分 α(U)\alpha(U)α(U) 和参数部分 β\betaβ,直至收敛。
定义误差项:
ϵ=Y−X⊤β−Z⊤α(U),P(ϵ≤0∣X,Z,U)=τ.
\epsilon = Y - X^\top \beta - Z^\top \alpha(U), \quad P(\epsilon \leq 0 | X, Z, U) = \tau.
ϵ=Y−X⊤β−Z⊤α(U),P(ϵ≤0∣X,Z,U)=τ.
假设条件
-
非参数光滑性
α(U)∈C2(D)\alpha(U) \in C^2(\mathcal{D})α(U)∈C2(D),且其二阶导数满足 ∥∂2α(U)/∂U∂U⊤∥≤C\| \partial^2 \alpha(U)/\partial U \partial U^\top \| \leq C∥∂2α(U)/∂U∂U⊤∥≤C。 -
设计正则性
- E[XX⊤]E[XX^\top]E[XX⊤] 正定,且协变量 XXX 与 Z,UZ, UZ,U 满足正交性条件:E[X∣Z,U]=E[X]E[X | Z, U] = E[X]E[X∣Z,U]=E[X]。
- 四维位置变量 UUU 的联合密度 f(U)f(U)f(U) 在其支撑集上满足 0<c1≤f(U)≤c2<∞0 < c_1 \leq f(U) \leq c_2 < \infty0<c1≤f(U)≤c2<∞。
-
误差条件密度
- 在 ϵ=0\epsilon = 0ϵ=0 处,条件密度 fϵ∣X,Z,U(0)≥c>0f_{\epsilon | X, Z, U}(0) \geq c > 0fϵ∣X,Z,U(0)≥c>0。
- fϵ∣X,Z,U(0)f_{\epsilon | X, Z, U}(0)fϵ∣X,Z,U(0) 关于 (X,Z,U)(X, Z, U)(X,Z,U) 一致连续。
-
核函数与带宽
- 使用乘积核函数 Kh(U)=∏d=141hdK(udhd)K_h(U) = \prod_{d=1}^4 \frac{1}{h_d} K\left( \frac{u_d}{h_d} \right)Kh(U)=∏d=14hd1K(hdud),其中 K(⋅)K(\cdot)K(⋅) 对称、紧支撑且满足 ∫K(u)du=1\int K(u) du = 1∫K(u)du=1,∫uK(u)du=0\int u K(u) du = 0∫uK(u)du=0。
- 带宽选择满足 hd=o(1)h_d = o(1)hd=o(1) 且 n∏d=14hd→∞n \prod_{d=1}^4 h_d \to \inftyn∏d=14hd→∞。
-
迭代收敛性
迭代序列 {β^(m),α^(m)(U)}\{ \hat{\beta}^{(m)}, \hat{\alpha}^{(m)}(U) \}{β^(m),α^(m)(U)} 依概率收敛到真值 (β,α(U))(\beta, \alpha(U))(β,α(U)),且存在常数 CCC,使得:
∥β^(m)−β∥≤C(∥β^(m−1)−β∥+supU∥α^(m−1)(U)−α(U)∥). \| \hat{\beta}^{(m)} - \beta \| \leq C \left( \| \hat{\beta}^{(m-1)} - \beta \| + \sup_{U} \| \hat{\alpha}^{(m-1)}(U) - \alpha(U) \| \right). ∥β^(m)−β∥≤C(∥β^(m−1)−β∥+Usup∥α^(m−1)(U)−α(U)∥).
证明过程
步骤1:非参数估计的偏差-方差分解
固定 β\betaβ,通过局部线性分位数回归估计 α(U)\alpha(U)α(U)。在位置 U0U_0U0 处,展开 α(U)\alpha(U)α(U) 为:
α(U)≈α(U0)+Dα(U0)⊤(U−U0),
\begin{equation*}
\alpha(U) \approx \alpha(U_0) + D_\alpha(U_0)^\top (U - U_0),
\end{equation*}
α(U)≈α(U0)+Dα(U0)⊤(U−U0),
其中 Dα(U0)D_\alpha(U_0)Dα(U0) 为梯度矩阵。定义损失函数:
Ln(α(U0),Dα(U0))=∑i=1nρτ(Yi−Xi⊤β−Zi⊤[α(U0)+Dα(U0)⊤(Ui−U0)])Kh(Ui−U0).
L_n(\alpha(U_0), D_\alpha(U_0)) = \sum_{i=1}^n \rho_\tau \left( Y_i - X_i^\top \beta - Z_i^\top \left[ \alpha(U_0) + D_\alpha(U_0)^\top (U_i - U_0) \right] \right) K_h(U_i - U_0).
Ln(α(U0),Dα(U0))=i=1∑nρτ(Yi−Xi⊤β−Zi⊤[α(U0)+Dα(U0)⊤(Ui−U0)])Kh(Ui−U0).
通过分位数回归理论(Koenker, 2005),在四维情况下,局部线性估计量 α^(U0)\hat{\alpha}(U_0)α^(U0) 的偏差和方差分别为:
Bias(α^(U0))=O(∑d=14hd2),Var(α^(U0))=O(1n∏d=14hd).
\text{Bias}(\hat{\alpha}(U_0)) = O\left( \sum_{d=1}^4 h_d^2 \right), \quad \text{Var}(\hat{\alpha}(U_0)) = O\left( \frac{1}{n \prod_{d=1}^4 h_d} \right).
Bias(α^(U0))=O(d=1∑4hd2),Var(α^(U0))=O(n∏d=14hd1).
选择带宽 hd∝n−1/(4+4)=n−1/8h_d \propto n^{-1/(4 + 4)} = n^{-1/8}hd∝n−1/(4+4)=n−1/8,则:
supU∥α^(U)−α(U)∥=Op(n−2/8+1n⋅n−4/8)=Op(n−1/4).
\sup_{U} \| \hat{\alpha}(U) - \alpha(U) \| = O_p\left( n^{-2/8} + \sqrt{ \frac{1}{n \cdot n^{-4/8}} } \right) = O_p(n^{-1/4}).
Usup∥α^(U)−α(U)∥=Op(n−2/8+n⋅n−4/81)=Op(n−1/4).
步骤2:参数估计的迭代误差分析与高阶余项处理
假设在第 mmm 次迭代中,非参数估计误差为 Δ(m)(U)=α^(m)(U)−α(U)\Delta^{(m)}(U) = \hat{\alpha}^{(m)}(U) - \alpha(U)Δ(m)(U)=α^(m)(U)−α(U),参数估计误差为 δ(m)=β^(m)−β\delta^{(m)} = \hat{\beta}^{(m)} - \betaδ(m)=β^(m)−β。根据模型结构:
Yi−Xi⊤β^(m)−Zi⊤α^(m)(Ui)=ϵi−Xi⊤δ(m)−Zi⊤Δ(m)(Ui).
Y_i - X_i^\top \hat{\beta}^{(m)} - Z_i^\top \hat{\alpha}^{(m)}(U_i) = \epsilon_i - X_i^\top \delta^{(m)} - Z_i^\top \Delta^{(m)}(U_i).
Yi−Xi⊤β^(m)−Zi⊤α^(m)(Ui)=ϵi−Xi⊤δ(m)−Zi⊤Δ(m)(Ui).
在阶段二中,固定 α^(m)(U)\hat{\alpha}^{(m)}(U)α^(m)(U),通过分位数回归估计 β\betaβ:
β^(m+1)=argminβ∑i=1nρτ(Yi−Xi⊤β−Zi⊤α^(m)(Ui)).
\hat{\beta}^{(m+1)} = \arg\min_{\beta} \sum_{i=1}^n \rho_\tau \left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}^{(m)}(U_i) \right).
β^(m+1)=argβmini=1∑nρτ(Yi−Xi⊤β−Zi⊤α^(m)(Ui)).
定义 ri=Xi⊤δ(m)+Zi⊤Δ(m)(Ui)r_i = X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i)ri=Xi⊤δ(m)+Zi⊤Δ(m)(Ui),将分位数得分函数展开。由于分位数回归中目标函数为分段线性,直接泰勒展开不可行,需采用Bahadur表示处理不可导性:
ψτ(ϵi−ri)=ψτ(ϵi)−fϵ(0)ri+Δi,
\psi_\tau(\epsilon_i - r_i) = \psi_\tau(\epsilon_i) - f_{\epsilon}(0) r_i + \Delta_i,
ψτ(ϵi−ri)=ψτ(ϵi)−fϵ(0)ri+Δi,
其中 ψτ(r)=τ−I(r<0)\psi_\tau(r) = \tau - I(r < 0)ψτ(r)=τ−I(r<0),Δi\Delta_iΔi 为高阶剩余项。
利用 Kiefer (1967) 的结论,对分位数过程的一致展开可得:
Δi=ψτ(ϵi−ri)−ψτ(ϵi)+fϵ(0)ri=Op(ri2).
\Delta_i = \psi_\tau(\epsilon_i - r_i) - \psi_\tau(\epsilon_i) + f_{\epsilon}(0) r_i = O_p(r_i^2).
Δi=ψτ(ϵi−ri)−ψτ(ϵi)+fϵ(0)ri=Op(ri2).
注意到 ri=Op(∥δ(m)∥+∥Δ(m)(Ui)∥)=Op(n−1/2+n−1/4)=Op(n−1/4)r_i = O_p(\| \delta^{(m)} \| + \| \Delta^{(m)}(U_i) \|) = O_p(n^{-1/2} + n^{-1/4}) = O_p(n^{-1/4})ri=Op(∥δ(m)∥+∥Δ(m)(Ui)∥)=Op(n−1/2+n−1/4)=Op(n−1/4),因此 Δi=Op(n−1/2)\Delta_i = O_p(n^{-1/2})Δi=Op(n−1/2)。经归一化后:
1n∑i=1nΔiXi=1n∑i=1nOp(n−1/2)Xi=Op(n−1/2⋅n)=Op(1)⋅op(1)=op(1).
\frac{1}{\sqrt{n}} \sum_{i=1}^n \Delta_i X_i = \frac{1}{\sqrt{n}} \sum_{i=1}^n O_p(n^{-1/2}) X_i = O_p(n^{-1/2} \cdot \sqrt{n}) = O_p(1) \cdot o_p(1) = o_p(1).
n1i=1∑nΔiXi=n1i=1∑nOp(n−1/2)Xi=Op(n−1/2⋅n)=Op(1)⋅op(1)=op(1).
将目标函数展开至一阶:
∑i=1nψτ(ϵi−Xi⊤δ(m)−Zi⊤Δ(m)(Ui))Xi=0.
\sum_{i=1}^n \psi_\tau \left( \epsilon_i - X_i^\top \delta^{(m)} - Z_i^\top \Delta^{(m)}(U_i) \right) X_i = 0.
i=1∑nψτ(ϵi−Xi⊤δ(m)−Zi⊤Δ(m)(Ui))Xi=0.
进一步线性化,并考虑上述高阶余项分析:
∑i=1n[ψτ(ϵi)−fϵ(0)(Xi⊤δ(m)+Zi⊤Δ(m)(Ui))]Xi+op(1)=0.
\sum_{i=1}^n \left[ \psi_\tau(\epsilon_i) - f_{\epsilon}(0) \left( X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i) \right) \right] X_i + o_p(1) = 0.
i=1∑n[ψτ(ϵi)−fϵ(0)(Xi⊤δ(m)+Zi⊤Δ(m)(Ui))]Xi+op(1)=0.
步骤3:递推关系与误差源分析
误差项 ri2r_i^2ri2 的二次展开为:
ri2=(Xi⊤δ(m)+Zi⊤Δ(m)(Ui))2=Op(∥δ(m)∥2+∥Δ(m)(Ui)∥2+∥δ(m)∥∥Δ(m)(Ui)∥).
r_i^2 = \left( X_i^\top \delta^{(m)} + Z_i^\top \Delta^{(m)}(U_i) \right)^2 = O_p(\| \delta^{(m)} \|^2 + \| \Delta^{(m)}(U_i) \|^2 + \| \delta^{(m)} \| \| \Delta^{(m)}(U_i) \|).
ri2=(Xi⊤δ(m)+Zi⊤Δ(m)(Ui))2=Op(∥δ(m)∥2+∥Δ(m)(Ui)∥2+∥δ(m)∥∥Δ(m)(Ui)∥).
归一化后:
1n∑i=1nri2Xi=Op(n(∥δ(m)∥2+n−1/2+n−1/4∥δ(m)∥)).
\frac{1}{\sqrt{n}} \sum_{i=1}^n r_i^2 X_i = O_p\left( \sqrt{n} (\| \delta^{(m)} \|^2 + n^{-1/2} + n^{-1/4} \| \delta^{(m)} \|) \right).
n1i=1∑nri2Xi=Op(n(∥δ(m)∥2+n−1/2+n−1/4∥δ(m)∥)).
由于 ∥δ(m)∥=Op(n−1/2)\| \delta^{(m)} \| = O_p(n^{-1/2})∥δ(m)∥=Op(n−1/2),代入得:
Op(n(n−1+n−1/2⋅n−1/4))=Op(n−1/2+n−1/4)=op(1).
O_p\left( \sqrt{n} (n^{-1} + n^{-1/2} \cdot n^{-1/4}) \right) = O_p(n^{-1/2} + n^{-1/4}) = o_p(1).
Op(n(n−1+n−1/2⋅n−1/4))=Op(n−1/2+n−1/4)=op(1).
由于正交性条件 E[X∣Z,U]=E[X]E[X | Z, U] = E[X]E[X∣Z,U]=E[X],非参数误差项 Zi⊤Δ(m)(Ui)Z_i^\top \Delta^{(m)}(U_i)Zi⊤Δ(m)(Ui) 与 XiX_iXi 渐进正交,因此:
1n∑i=1nfϵ(0)XiXi⊤δ(m)=1n∑i=1nψτ(ϵi)Xi+op(n−1/2).
\frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \delta^{(m)} = \frac{1}{n} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i + o_p(n^{-1/2}).
n1i=1∑nfϵ(0)XiXi⊤δ(m)=n1i=1∑nψτ(ϵi)Xi+op(n−1/2).
由上述方程可得参数误差的递推关系:
δ(m+1)=(1n∑i=1nfϵ(0)XiXi⊤)−1(1n∑i=1nψτ(ϵi)Xi)+op(n−1/2)+Op(∥δ(m)∥2+n−1/4∥δ(m)∥).
\delta^{(m+1)} = \left( \frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \right)^{-1} \left( \frac{1}{n} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i \right) + o_p(n^{-1/2}) + O_p(\| \delta^{(m)} \|^2 + n^{-1/4} \| \delta^{(m)} \|).
δ(m+1)=(n1i=1∑nfϵ(0)XiXi⊤)−1(n1i=1∑nψτ(ϵi)Xi)+op(n−1/2)+Op(∥δ(m)∥2+n−1/4∥δ(m)∥).
步骤4:初始估计构造与收敛性证明
初始估计 β^(0)\hat{\beta}^{(0)}β^(0) 可通过以下两阶段方法获得:
阶段一(粗糙非参数估计)
使用较大的带宽 hd(0)∝n−1/6h_d^{(0)} \propto n^{-1/6}hd(0)∝n−1/6 进行局部常数分位数回归,估计 α(U)\alpha(U)α(U):
α^(0)(U)=argmina∑i=1nρτ(Yi−Xi⊤β−Zi⊤a)Kh(0)(Ui−U).
\hat{\alpha}^{(0)}(U) = \arg\min_{a} \sum_{i=1}^n \rho_\tau(Y_i - X_i^\top \beta - Z_i^\top a) K_{h^{(0)}}(U_i - U).
α^(0)(U)=argamini=1∑nρτ(Yi−Xi⊤β−Zi⊤a)Kh(0)(Ui−U).此时收敛速度为 ∥α^(0)(U)−α(U)∥=Op(n−1/6)\| \hat{\alpha}^{(0)}(U) - \alpha(U) \| = O_p(n^{-1/6})∥α^(0)(U)−α(U)∥=Op(n−1/6)。
阶段二(初始参数估计)
固定 α^(0)(U)\hat{\alpha}^{(0)}(U)α^(0)(U),通过线性分位数回归估计 β\betaβ:
β^(0)=argminβ∑i=1nρτ(Yi−Xi⊤β−Zi⊤α^(0)(Ui)).
\hat{\beta}^{(0)} = \arg\min_{\beta} \sum_{i=1}^n \rho_\tau\left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}^{(0)}(U_i) \right).
β^(0)=argβmini=1∑nρτ(Yi−Xi⊤β−Zi⊤α^(0)(Ui)).
由于非参数误差的干扰,初始估计的收敛速度为:
∥β^(0)−β∥=Op(n−1/4).
\| \hat{\beta}^{(0)} - \beta \| = O_p(n^{-1/4}).
∥β^(0)−β∥=Op(n−1/4).
结合初始估计的误差阶,递推关系修正为:
∥δ(m)∥≤C(∥δ(m−1)∥+n−1/4),
\| \delta^{(m)} \| \leq C \left( \| \delta^{(m-1)} \| + n^{-1/4} \right),
∥δ(m)∥≤C(∥δ(m−1)∥+n−1/4),
初始条件 ∥δ(0)∥=Op(n−1/4)\| \delta^{(0)} \| = O_p(n^{-1/4})∥δ(0)∥=Op(n−1/4)。通过数学归纳法:
- 基例:当 m=1m=1m=1,∥δ(1)∥≤C(n−1/4+n−1/4)=Op(n−1/4)\| \delta^{(1)} \| \leq C(n^{-1/4} + n^{-1/4}) = O_p(n^{-1/4})∥δ(1)∥≤C(n−1/4+n−1/4)=Op(n−1/4)。
- 归纳假设:假设 ∥δ(k)∥=Op(n−1/4)\| \delta^{(k)} \| = O_p(n^{-1/4})∥δ(k)∥=Op(n−1/4) 对所有 k≤mk \leq mk≤m 成立。
- 递推步:
∥δ(m+1)∥≤C(Op(n−1/4)+n−1/4)=Op(n−1/4). \| \delta^{(m+1)} \| \leq C(O_p(n^{-1/4}) + n^{-1/4}) = O_p(n^{-1/4}). ∥δ(m+1)∥≤C(Op(n−1/4)+n−1/4)=Op(n−1/4).
当迭代次数 m→∞m \to \inftym→∞,误差累积被压缩,最终得到 ∥δ(∞)∥=Op(n−1/2)\| \delta^{(\infty)} \| = O_p(n^{-1/2})∥δ(∞)∥=Op(n−1/2),即参数估计量满足 n\sqrt{n}n-相合性。
步骤5:渐近正态性推导
在收敛点附近,展开估计方程:
nδ(∞)=(1n∑i=1nfϵ(0)XiXi⊤)−11n∑i=1nψτ(ϵi)Xi+op(1).
\sqrt{n} \delta^{(\infty)} = \left( \frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \right)^{-1} \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i + o_p(1).
nδ(∞)=(n1i=1∑nfϵ(0)XiXi⊤)−1n1i=1∑nψτ(ϵi)Xi+op(1).
由大数定律:
1n∑i=1nfϵ(0)XiXi⊤→pΣ=E[fϵ(0)XX⊤].
\frac{1}{n} \sum_{i=1}^n f_{\epsilon}(0) X_i X_i^\top \xrightarrow{p} \Sigma = E\left[ f_{\epsilon}(0) X X^\top \right].
n1i=1∑nfϵ(0)XiXi⊤pΣ=E[fϵ(0)XX⊤].
由中心极限定理:
1n∑i=1nψτ(ϵi)Xi→dN(0,Ω),Ω=τ(1−τ)E[XX⊤].
\frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_\tau(\epsilon_i) X_i \xrightarrow{d} \mathcal{N}\left( 0, \Omega \right), \quad \Omega = \tau(1-\tau) E\left[ X X^\top \right].
n1i=1∑nψτ(ϵi)XidN(0,Ω),Ω=τ(1−τ)E[XX⊤].
因此,结合Slutsky定理:
n(β^−β)→dN(0,Σ−1ΩΣ−1).
\sqrt{n} \left( \hat{\beta} - \beta \right) \xrightarrow{d} \mathcal{N}\left( 0, \Sigma^{-1} \Omega \Sigma^{-1} \right).
n(β^−β)dN(0,Σ−1ΩΣ−1).
复合分位数回归扩展
若使用 KKK 个分位数水平 τ1,…,τK\tau_1, \dots, \tau_Kτ1,…,τK,定义复合损失函数:
LCQR(β)=∑k=1K∑i=1nρτk(Yi−Xi⊤β−Zi⊤α^(Ui)).
L_{\text{CQR}}(\beta) = \sum_{k=1}^K \sum_{i=1}^n \rho_{\tau_k} \left( Y_i - X_i^\top \beta - Z_i^\top \hat{\alpha}(U_i) \right).
LCQR(β)=k=1∑Ki=1∑nρτk(Yi−Xi⊤β−Zi⊤α^(Ui)).
类似地,渐近协方差矩阵调整为:
ΣCQR=∑k,l=1KωklE[fϵk(0)fϵl(0)XX⊤],ΩCQR=∑k,l=1Kωklτk(1−τl)E[XX⊤],
\Sigma_{\text{CQR}} = \sum_{k,l=1}^K \omega_{kl} E\left[ f_{\epsilon_k}(0) f_{\epsilon_l}(0) X X^\top \right], \quad \Omega_{\text{CQR}} = \sum_{k,l=1}^K \omega_{kl} \tau_k (1 - \tau_l) E\left[ X X^\top \right],
ΣCQR=k,l=1∑KωklE[fϵk(0)fϵl(0)XX⊤],ΩCQR=k,l=1∑Kωklτk(1−τl)E[XX⊤],
其中 ωkl\omega_{kl}ωkl 为分位数权重。当误差分布对称时,复合估计量的渐近方差小于单一分位数回归。
结论
在满足正交性、光滑性、设计正则性等假设下,迭代式两阶段估计量 β^\hat{\beta}β^ 满足:
n(β^−β)→dN(0, Σ−1ΩΣ−1)
\sqrt{n} \left( \hat{\beta} - \beta \right) \xrightarrow{d} \mathcal{N}\left( 0, \, \Sigma^{-1} \Omega \Sigma^{-1} \right)
n(β^−β)dN(0,Σ−1ΩΣ−1)
其中 Σ=E[fϵ(0)XX⊤]\Sigma = E\left[ f_{\epsilon}(0) X X^\top \right]Σ=E[fϵ(0)XX⊤],Ω=τ(1−τ)E[XX⊤]\Omega = \tau(1-\tau) E\left[ X X^\top \right]Ω=τ(1−τ)E[XX⊤]。
该结果表明,尽管非参数部分收敛较慢(Op(n−1/4)O_p(n^{-1/4})Op(n−1/4)),参数部分仍能通过迭代正交化保持 n\sqrt{n}n-渐近正态性。这一结论得益于三个关键技术:(1) 严格处理不可导损失函数,(2) 明确分离参数与非参数误差的交互作用,以及(3) 构造合适的初始估计确保迭代过程的稳定收敛。