协变量偏移适应:原理、方法与应用
在机器学习领域,标准的监督学习理论通常假设测试输入点和训练输入点遵循相同的概率分布。然而,在现实世界的学习问题中,这种假设往往不成立,这就导致了协变量偏移(Covariate Shift)的问题。本文将深入探讨协变量偏移的相关概念、学习方法以及模型选择技巧,并通过具体的数值示例进行说明。
1. 问题表述
在监督学习中,我们的目标是从训练样本中估计未知的输入 - 输出依赖关系。设训练样本为 ${(x_{tr}^i, y_{tr}^i)|x_{tr}^i \in X \subset R^d, y_{tr}^i \in Y \subset R} {i = 1}^{n {tr}}$,其中 $x_{tr}^i$ 是从概率密度为 $p_{tr}^ (x)$ 的分布中抽取的训练输入点,$y_{tr}^i$ 是遵循条件概率密度 $p^ (y|x = x_{tr}^i)$ 的训练输出值。$p^ (y|x)$ 可以看作是真实输出 $f^ (x)$ 和噪声 $\epsilon$ 的叠加,即 $y = f^*(x) + \epsilon$。
测试样本 $(x_{te}, y_{te})$ 在训练阶段不提供,而是在未来的测试阶段给出。$x_{te}$ 遵循概率密度为 $p_{te}^ (x)$ 的分布,通常与训练数据分布不同;$y_{te}$ 遵循 $p^ (y|x = x_{te})$,与训练阶段的条件密度相同。
监督学习的目标是获得对真实函数 $f^ (x)$ 的近似 $\hat{f}(x)$,以预测测试输出值 $y_{te}$。更正式地说,我们希望获
超级会员免费看
订阅专栏 解锁全文
591

被折叠的 条评论
为什么被折叠?



