无监督学习与生成对抗网络详解
1. 无监督学习概述
无监督学习模型的显著特点是在无标签的观测数据集 ${x_i}$ 上进行学习。这类模型目标多样,可用于生成新样本、处理数据(如去噪、插值、压缩)、揭示数据集内部结构(如聚类)以及识别异常值等。
常见策略是在数据样本 $x$ 和一组未观测到的潜在变量 $z$ 之间定义映射。潜在变量能捕捉数据集的底层结构,通常维度低于原始数据,可视为数据样本的压缩版本。映射方向有两种:
- 从数据 $x$ 到潜在变量 $z$,例如著名的 k - 均值算法,将数据 $x$ 映射到聚类分配 $z \in {1, 2, \ldots, K}$。
- 从潜在变量 $z$ 到数据 $x$,这类模型可定义潜在变量 $z$ 的分布 $Pr(z)$,通过从该分布采样并映射到数据空间 $x$ 来生成新样本,被称为生成模型。
1.1 生成模型分类
- 生成对抗网络(GANs) :通过损失函数促使生成样本与真实样本难以区分,但不构建数据的概率分布,无法评估新数据点属于同一分布的概率。
- 概率生成模型 :包括变分自编码器(VAEs)、归一化流和扩散模型,既能生成新样本,又能为每个数据点 $x$ 分配概率 $Pr(x|\phi)$。训练时,最大化观测数据 ${x_i}$ 的概率,损失函数为负对数似然之和:
[L[\phi] = - \sum_{i = 1}^{I} \log[Pr(x_i|\phi)]]
1.2 优质生成模型的特性
- 高效采样 <
超级会员免费看
订阅专栏 解锁全文

5687

被折叠的 条评论
为什么被折叠?



