51、高维分类数据下改进的组套索算法

高维分类数据下改进的组套索算法

在统计和机器学习领域,包含分类变量(因子)的数据集十分常见。然而,针对这类数据进行稀疏建模,相较于仅含数值变量的数据而言,面临着更大的挑战。

1. 分类数据稀疏建模的挑战

分类数据稀疏建模困难主要有两个原因:
- 编码参数需求多 :一个具有 $k$ 个水平的因子通常会被编码为 $k - 1$ 个虚拟变量,因此需要 $k - 1$ 个参数来学习该因子。
- 降维操作复杂 :对因子进行降维比对数值预测变量降维要复杂得多。对于数值预测变量,通常只有保留或删除两种操作;而对于因子,既可以删除该因子,也可以合并其某些水平,且随着水平数量的增加,合并可能性的数量会迅速增长。例如,一个代表所在大洲(不考虑南极洲)的因子有 6 个水平,那么就有 203 种合并其水平的可能性(通常称为划分)。

由于当因子数量和/或其总水平数量较大时,开发高效的分类数据算法并研究其统计特性非常困难,所以这一领域此前并未得到深入研究,相关文献也相对较少。不过,随着分类数据的普遍存在,这种情况正在发生改变。

2. 现有算法及其局限性

在高维分类数据的选择和稀疏预测问题中,目标是开发一种输出预测误差小且易于解释的程序。对于分类预测变量,易于解释意味着要丢弃所有非活跃因子,并且如果活跃因子包含相等水平,则应将它们合并。

神经网络或随机森林具有良好的预测性能,但输出难以解释,并且在样本量 $n$ 较小和/或变量数量 $p$ 大于 $n$ 时往往表现不佳。因此,这里关注惩罚似然方法,如套索(Lasso)算法家族,它们常用于稀疏预测。不过,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值