利用聚类和主题建模发现新闻组数据集中的潜在主题
无监督学习
无监督学习是一种在没有明确“教师”指导的情况下,从输入数据中识别内在结构或共性的学习方式。与监督学习不同,它不依赖于特定的输出(如分类标签或回归值)来进行学习。
无监督学习的理解示例
可以将无监督学习类比为准备考试时做练习题。在监督学习中,会有练习题的答案,我们通过找出问题和答案之间的关系来学习如何将问题映射到答案。而在无监督学习中,没有答案,我们可能会采取以下操作:
- 对相似的练习题进行分组,以便后续一起学习相关问题。
- 找出高度重复的问题,避免在这些问题上浪费时间。
- 发现罕见的问题,从而更好地为其做准备。
- 通过去除套话提取每个问题的关键部分,直切要点。
无监督学习的类型
无监督学习主要包括以下几种类型:
| 类型 | 描述 | 示例 |
| — | — | — |
| 聚类 | 基于数据的共性对数据进行分组,常用于探索性数据分析 | 对相似练习题进行分组 |
| 关联 | 探索两个或多个特征特定值的共现情况,典型应用为异常检测 | 找出罕见的练习题 |
| 投影 | 将原始特征空间映射到低维空间,保留或提取一组主要变量,即降维 | 提取练习题的关键部分 |
无监督学习在自然语言处理领域应用广泛,因为获取标注文本数据较为困难。与数值数据不同,文本标注有时具有主观性、需要手动操作且过程繁琐,而无需标签的无监督学习算法在挖掘文本数据时非常有效。
K - 均值聚类算法
算法原理
K - 均值
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



