数据挖掘——聚类分析之相似系数

本文介绍的是数据挖掘技术中的聚类分析

聚类的概念和应用

什么是聚类

聚类分析

  • 依据对象自身的相似性把一组对象划分成一系列有意义的子集的过程
  • 最大的组内相似性:同一聚类中的对象尽可能地相似
  • 最小的组间相似性:不同聚类中的对象尽可能地不同
  • 聚类: 对象的集合

不含类标志的数据,无法利用分类的方法
其它数据挖掘任务的前奏

聚类把整个数据集合分成相似的子集之后,其它的数据挖掘工具就更容易在聚类结果的基础上发现有用的规则和模式

例如,如果从全体数据中得不到明显的模式,可以先对数据聚类,再从每个聚类中发现规则和模式

聚类的应用

  • 零售业
    将经常同时购买的数据项聚类到一起有利于改善商品的布置,提高销售利润。将具有相似的购买模式的顾客聚类到一起,分析每一类顾客的特征,有利于对特定的顾客群进行特定商品的宣传和销售

  • 信息检索
    对文档进行分类,改善信息检索的效率,或者发现某一领域文献的组成结构

  • 医疗分析
    对一组新型疾病聚类,得到每类疾病的特征描述,对这些疾病进行识别,提高治疗的功效
    发现不属于正常类别的特殊病例,例如识别组织结构的病变细胞

  • 天文学
    利用聚类分析宇宙仿真系统得到的数据,更好地理解黑洞形成和进化的物理过程<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值