无监督学习范式:原理、任务与生成模型
1. 无监督学习工作原理
无监督学习通过直接分析输入数据集 (D),寻找最优的假设函数 (h \in H),使得假设函数 (h(\mathbf{x}) = \hat{y}) 与目标函数 (f(\mathbf{x})) 之间的损失最小化,即:
[L(h(\mathbf{x}), f(\mathbf{x})) = L(\hat{y}, y) = \underset{h \in H}{\arg\min} E[h(\mathbf{x}) - f(\mathbf{x})]]
损失函数 (L(\hat{y}, y)) 将输出空间的笛卡尔积映射到实数集 (\mathbb{R}),即 (L: Y \times Y \to \mathbb{R})。无监督学习的损失函数取决于具体的任务和模型,其目的是最小化假设函数与目标函数之间的误差,使假设函数尽可能接近目标函数。
无监督学习没有使用带标签数据的训练过程,这是其与监督学习的重要区别。
2. 经典任务
无监督学习范式涵盖的经典任务主要包括以下三类:
2.1 聚类
聚类是基于输入数据的分析将数据划分为若干簇的过程。它可分为经典聚类方法(传统聚类方法)和新经典聚类方法(现代聚类方法,包括基于深度学习的聚类)。聚类任务的输出是 (k) 个簇 ({G_j | j = 1, \ldots, k} \subseteq Y),每个簇 (G_j) 是输入数据的子集,即 (G_j \subseteq X),且簇的数量 (k) 在聚类分析前是未知的。
2.2 降维
降维是将高维数据映射到低维空间的过程。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



