高维分类数据下改进组套索算法的研究与应用
在处理高维分类数据时,组套索(Group Lasso)算法是一种常用的方法,但它存在一些局限性。本文将介绍一种改进的算法——PDMR(Partition and Delete or Merge Regressors),并通过实验对比它与其他竞争算法的性能。
1. 理论基础
在目标函数的优化过程中,SCOPE算法可能会得到大量的块最优解,但这些解可能并不是全局最优解。例如,对于函数$f(x, y) = |x - y| + |x + y|$,其全局最小值为$(0, 0)$,但点$(100, 100)$也是一个块最优解,在估计全局最小值时并没有实际作用。因此,SCOPE算法的输出可能不是$M˚β$的有效估计。而定理1表明,PDMR算法在高维情况下能够进行一致筛选。
计算参数$\kappa$的值比较困难。在特定情况下,当$X^T X$是正交矩阵时,可以确定$\kappa$的值,并且条件$\Delta^2 \geq \sigma^2 \log p \max_k p_k / n$成立,其中$\Delta$表示$M˚β$中同一因子不同水平之间的最小差异。这个条件揭示了数据特征(如样本量$n$、参数数量$p$、因子水平数$p_k$、噪声标准差$\sigma$和$\Delta$)与$M˚β$可区分性之间的关系。
定理1的证明步骤如下:
1. 证明组套索是一个一致估计量,这意味着PDMR算法步骤(2a)中定义的模型族$M$包含真实模型集$M˚β$。
2. 证明选择$M˚β$子模型的概率可以用Touchard多项式表示,并利用相关组合结果进行估计。
3. 然而,证明$P(M˚β \subsetneq \hat{
高维分类数据下PDMR算法研究
超级会员免费看
订阅专栏 解锁全文
2001

被折叠的 条评论
为什么被折叠?



