2、空间环境数据的机器学习:原理与任务解析

空间环境数据的机器学习:原理与任务解析

1. 数据与概率分布基础

在处理数据时,通常假定存在某种概率分布 $P(x, y)$ 来生成数据,它能对数据生成过程进行合理描述。然而,这个分布的具体形式往往是未知的,我们仅能获取一组经验数据。要从由 $P(x, y)$ 生成的数据集 ${x, y}$ 中进行推断,关键在于确保该数据集具有一致性和代表性,能为 $P(x, y)$ 提供可靠信息。一般假设 ${x, y}$ 是从同一总体中独立同分布采样得到的数据。

了解 $P(x, y)$ 能完整描述数据生成过程,进而对 $x$、$y$ 的分布或给定 $x$ 时 $y$ 的条件分布进行推断。但估计 $P(x, y)$ 甚至仅仅是 $P(x)$ 都是极具挑战性的问题。实际上,我们更关心的是 $x$ 和 $y$ 之间依赖关系的特定属性,而非分布本身。例如,判断新观测值 $x_{new}$ 是否属于之前观测过的某类 $y$,或者根据已知的 $x$ 和 $y$ 值预测新 $x$ 对应的 $y$ 值。这类问题无需明确知道 $P(x, y)$ 就能解答,这便是判别式学习方法,与先对 $P(x, y)$ 进行建模的生成式学习方法不同。

机器学习构建的算法能够在不对 $P(x, y)$ 做严格假设的情况下,对未知输入的输出进行预测。其一些基本思想纯粹基于算法且与分布无关,但要求可用的经验数据集具有良好的代表性,并且我们所观察的底层过程与试图建模和预测的过程一致,即新样本与训练样本来自同一分布或总体。

2. 主要学习任务

根据观测输出的类型或编码方式,可引入不同的学习任务。

2.1 无监督学习

当没有输出信息时,就会涉及无监

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值