21、生成模型与聚类分析:从无标签数据中学习

生成模型与聚类分析:从无标签数据中学习

1. 生成模型在半监督学习中的优势与局限

生成模型在半监督学习中具有独特的优势,它能比判别模型更丰富地描述数据生成过程,从而更易利用无标签数据中的信息。判别模型仅编码 “若 x,则 y” 的信息,缺乏对输入本身的显式模型;而生成模型包含了关于 p(x | y) 的额外假设,这在处理半监督问题时十分有用。例如,高斯混合模型(GMM)假设属于同一类 y 的所有输入 x 具有相同的高斯分布,进而形成一个聚类。模型参数可从这些聚类中推断得出,有标签和无标签的数据点都对参数推断有贡献。

然而,生成模型也存在局限性。它需要对数据分布做出额外假设,若这些假设不成立,结果可能产生误导。此外,在许多现代机器学习问题中,输入 x 具有极高的维度,为其分布设计和学习合适的模型变得困难。例如,若 x 是图像,用高维高斯分布来建模像素值难以很好地捕捉自然图像的特征。

2. 监督、半监督与无监督学习
  • 监督学习 :目标是基于包含输入和对应(有标签)输出的训练数据,学习输入 - 输出关系的模型。
  • 半监督学习 :混合有标签和无标签数据,学习能利用两种信息源的模型。
  • 无监督学习 :假设所有数据点均无标签,给定训练数据 T = {xi}i = 1n,目标是构建可用于推断数据关键属性(或数据生成过程)的模型,从生成建模的角度看,即构建分布 p(x) 的模型。
3. 聚类问题概述

聚类是无监督学习的一个例子,旨在数据空间中找到相

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值