序数回归的大间隔排名边界
1 引言
在机器学习中,分类和度量回归是常见的任务。然而,本文聚焦于序数回归问题,即预测具有序数尺度变量的问题。这一问题在社会科学和信息检索等领域频繁出现,因为人类偏好起着重要作用。
传统的机器学习任务主要分为两种情况:
- 分类 :当输出空间 (Y) 是有限的无序集合(名义尺度)时,任务被称为分类。此时,0 - 1 损失函数 (c_{class}(x; y; f(x)) = 1_{f(x)\neq y}) 能很好地捕捉每个点的损失。
- 回归估计 :当 (Y) 是度量空间(如实数集)时,任务被称为回归估计。在这种情况下,损失函数可以考虑完整的度量结构,不同的度量损失函数在给定的概率模型 (P(y|x)) 下是最优的,通常以 (f_{emp}) 的均方误差来衡量最优性。
序数回归问题兼具上述两种情况的特点:(Y) 是有限集且元素之间存在排序,但 (Y) 是非度量空间。这导致在定义合适的损失函数时面临问题,一方面 (Y) 空间中没有定义距离,另一方面简单的 0 - 1 损失无法反映 (Y) 中的排序。因此,我们建议通过考虑每个映射 (f: X \to Y) 在空间 (X) 上诱导的顺序来利用 (Y) 元素的序数性质,从而定义一个作用于真实排名对 ((y_1; y_2)) 和预测排名对 ((f(x_1); f(x_2))) 的损失函数 (c_{pref}(x_1; x_2; y_1; y_2; f(x_1); f(x_2)))。
2 经典的序数回归模型
经典的序数回归模型采用累积或阈值模型,假设存在一个结果空间 (Y =
超级会员免费看
订阅专栏 解锁全文
2028

被折叠的 条评论
为什么被折叠?



