高维分类数据下改进的组套索算法
在统计和机器学习领域,包含分类变量(因子)的数据集十分常见。然而,针对这类数据进行稀疏建模,相较于仅含数值变量的数据而言,面临着更大的挑战。
1. 分类数据稀疏建模的挑战
分类数据稀疏建模困难主要有两个原因:
- 编码参数需求多 :一个具有 $k$ 个水平的因子通常会被编码为 $k - 1$ 个虚拟变量,因此需要 $k - 1$ 个参数来学习该因子。
- 降维操作复杂 :对因子进行降维比对数值预测变量降维要复杂得多。对于数值预测变量,通常只有保留或删除两种操作;而对于因子,既可以删除该因子,也可以合并其某些水平,且随着水平数量的增加,合并可能性的数量会迅速增长。例如,一个代表所在大洲(不考虑南极洲)的因子有 6 个水平,那么就有 203 种合并其水平的可能性(通常称为划分)。
由于当因子数量和/或其总水平数量较大时,开发高效的分类数据算法并研究其统计特性非常困难,所以这一领域此前并未得到深入研究,相关文献也相对较少。不过,随着分类数据的普遍存在,这种情况正在发生改变。
2. 现有算法及其局限性
在高维分类数据的选择和稀疏预测问题中,目标是开发一种输出预测误差小且易于解释的程序。对于分类预测变量,易于解释意味着要丢弃所有非活跃因子,并且如果活跃因子包含相等水平,则应将它们合并。
神经网络或随机森林具有良好的预测性能,但输出难以解释,并且在样本量 $n$ 较小和/或变量数量 $p$ 大于 $n$ 时往往表现不佳。因此,这里关注惩罚似然方法,如套索(Lasso)算法家族,它们常用于稀疏预测。不过,
超级会员免费看
订阅专栏 解锁全文
3463

被折叠的 条评论
为什么被折叠?



