24、受限聚类综述

受限聚类方法与应用综述

受限聚类综述

1. 引言

数据挖掘旨在从大型数据集中提取新的有用信息。近年来,随着海量数据集的广泛可用和计算机处理能力的提升,数据挖掘受到了科学家和社会的广泛关注。数据挖掘技术主要分为监督学习和无监督学习。

  • 监督学习 :将数据分为训练数据和测试数据,训练数据中的观测值带有期望的输出值(标签),用于构建预测测试数据输出值的函数,如分类和回归问题。不过,监督学习算法通常需要大量的训练数据集,而这些数据并非总是可用,获取成本也可能很高。
  • 无监督学习 :不依赖训练数据,而是试图在无标签数据中找到内在的“自然”结构。聚类是最著名的无监督学习问题之一,但由于缺乏引导,从数据中提取的结构可能并不总是与分析师或用户相关。

在某些情况下,数据分析师可能对数据的底层结构有先验知识。对于完全无标签或仅有少量标签的数据,监督学习技术可能并不适用。一种处理方式是忽略先验知识,直接应用无监督学习方法,但这可能导致提取出与用户无关的结构。另一种方式是半监督学习,它将先验知识融入学习过程,以提高结果的质量,这种学习方式处于完全监督学习和无监督学习的交叉领域。

在过去的二十年里,半监督聚类(也称为受限聚类或带边信息的聚类)吸引了众多研究者。研究发现,即使只有少量的先验知识,也能显著提高聚类性能并减少运行时间。

2. 无监督聚类

聚类是将无标签的观测值划分为多个组(簇),使得同一组内的观测值在某些相似性标准下彼此相似(即高簇内相似度),而与其他组的观测值不同(即高簇间相异度)。聚类的目标是根据数据分析师的目标找到有意义或有用的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值