空间环境数据的机器学习:原理与任务解析
1. 数据与概率分布基础
在处理数据时,通常假定存在某种概率分布 $P(x, y)$ 来生成数据,它能对数据生成过程进行合理描述。然而,这个分布的具体形式往往是未知的,我们仅能获取一组经验数据。要从由 $P(x, y)$ 生成的数据集 ${x, y}$ 中进行推断,关键在于确保该数据集具有一致性和代表性,能为 $P(x, y)$ 提供可靠信息。一般假设 ${x, y}$ 是从同一总体中独立同分布采样得到的数据。
了解 $P(x, y)$ 能完整描述数据生成过程,进而对 $x$、$y$ 的分布或给定 $x$ 时 $y$ 的条件分布进行推断。但估计 $P(x, y)$ 甚至仅仅是 $P(x)$ 都是极具挑战性的问题。实际上,我们更关心的是 $x$ 和 $y$ 之间依赖关系的特定属性,而非分布本身。例如,判断新观测值 $x_{new}$ 是否属于之前观测过的某类 $y$,或者根据已知的 $x$ 和 $y$ 值预测新 $x$ 对应的 $y$ 值。这类问题无需明确知道 $P(x, y)$ 就能解答,这便是判别式学习方法,与先对 $P(x, y)$ 进行建模的生成式学习方法不同。
机器学习构建的算法能够在不对 $P(x, y)$ 做严格假设的情况下,对未知输入的输出进行预测。其一些基本思想纯粹基于算法且与分布无关,但要求可用的经验数据集具有良好的代表性,并且我们所观察的底层过程与试图建模和预测的过程一致,即新样本与训练样本来自同一分布或总体。
2. 主要学习任务
根据观测输出的类型或编码方式,可引入不同的学习任务。
2.1 无监督学习
当没有输出信息时,就会涉及无监
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



