聚类集成中差异性测量方法

本文探讨了聚类集成中的多种差异性度量方法,包括基于NMI的NMIBDM、熵基础的EBDM、条件熵的CEBDM、调整兰德指数的adRBDM、双故障度量的DFBDM、巧合故障多样性的CFDBDM以及基于评分者间一致性的IRABDM。这些度量方法分别从不同角度评估聚类结果的差异性和性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、基于NMI的差异性度量NMIBDM

互信息(mutual information, MI)定义为[1]

I(X;Y)=x,yp(x,y)logp(x,y)p(x),p(y)

规范化互信息(normalized mutual information, NMI) [2]:
NMI=I(X,Y)H(X)H(Y)

其中 H(X) H(Y) 分别表示X和Y两个随机变量的熵值,其中熵值的定义如下:
H(X)=xp(x)log1p(x)
### Python 实现系统聚类算法 系统聚类法通常指的是层次聚类(Hierarchical Clustering),它可以通过 `scipy` 或 `sklearn` 库来实现。以下是基于这两个库的具体讲解和代码示例。 #### 使用 Scipy 实现层次聚类 Scipy 提供了一个强大的工具包用于科学计算,其中包含了层次聚类的功能模块 `hierarchy` 和距离矩阵计算功能 `pdist`。下面是一个完整的例子: ```python from scipy.cluster.hierarchy import linkage, dendrogram, fcluster import matplotlib.pyplot as plt import numpy as np # 创建样本数据 X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8]]) # 计算凝聚树 Z = linkage(X, 'ward') # 可选方法有 'single', 'complete', 'average', 'weighted' 等 # 绘制谱系图 (Dendrogram) plt.figure(figsize=(8, 4)) dendrogram(Z) plt.title('Dendrogram') plt.xlabel('Data Points') plt.ylabel('Distance') # 聚类分组 clusters = fcluster(Z, t=2, criterion='maxclust') # 将数据分为两簇 print(clusters) # 输出每个点所属的类别标签 ``` 上述代码展示了如何利用 SciPy 的 `linkage()` 函数构建层次结构,并通过 `fcluster()` 方法指定最终的分类数量[^1]。 #### 使用 Sklearn 实现层次聚类 Sklearn 中提供了另一种方式来进行层次聚类,即 AgglomerativeClustering 类。这种方法更加面向对象化设计,适合与其他机器学习流程集成在一起。 ```python from sklearn.cluster import AgglomerativeClustering import numpy as np # 定义输入数据 data = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8]]) # 初始化模型实例 model = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward') # 执行拟合操作 labels = model.fit_predict(data) # 查看结果 for i, label in enumerate(labels): print(f"Point {i}: Cluster {label}") ``` 在这个版本里,我们定义了两个参数:一个是期望得到的簇数 (`n_clusters`);另一个是指定链接准则的方法(`linkage`),这里选择了 Ward 法作为默认选项[^4]。 #### 层次聚类的核心概念说明 - **Linkage Methods**: 不同连接技术决定了新形成的群集间距离度量标准的选择。“Single Linkage”采用最近邻居原则,“Complete Linkage”则取最远距离,“Average Linkage”平均两者之间的差距。 - **Affinity Metrics**: 表达的是个体之间相似性的测量尺度,默认情况下使用欧几里得空间中的直线长度表示差异程度。 #### 结果解释与应用领域 完成以上过程之后,可以进一步探索不同超参设置下产生的效果变化规律,比如调整阈值或者改变衡量指标等等。这种类型的无监督学习非常适合于市场细分研究、基因表达数据分析等领域,在这些场景中往往缺乏明确的目标变量指导建模方向[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值