24、基于互信息的监督属性聚类算法实验结果分析

基于互信息的监督属性聚类算法实验结果分析

1. 实验数据概述

实验涉及多种数据集,包括癌症和关节炎相关的微阵列数据集。如类风湿关节炎与健康对照(RAHC)数据集,包含32名类风湿关节炎患者、3名可能患有类风湿关节炎患者以及15名年龄和性别匹配的健康对照的外周血细胞基因表达谱,在复杂度约为26K独特基因(43K元素)的微阵列上进行分析。

2. 阈值δ的优化

2.1 阈值δ的作用

阈值δ在(9.13)中对形成初始粗聚类起着重要作用,它控制着聚类属性之间的相似度,直接影响MISAC算法的性能。当δ增大时,聚类中的属性数量减少,但属性间相对于样本类别的相似度增加;反之,δ减小时,聚类属性间的相似度降低。

2.2 确定最优阈值

为找到最优的δ值,使用类可分性指数S。对于五个微阵列数据集,将δ值从0.80变化到1.0,并仅针对最佳聚类(c = 1)计算类可分性指数。通过以下关系获得每个微阵列数据集的最优δ值:
[
\delta_{optimum} = \arg \min_{\delta} {S }
]
不同数据集的最优δ值如下:
| 数据集 | 最优δ值 |
| ---- | ---- |
| 乳腺癌 | 0.97 |
| 白血病 | 0.96 |
| 结肠癌 | 0.93 |
| RAHC | 0.98 |
| RAOA | 0.96 |

2.3 不同δ值下MISAC算法的性能

通过SVM、K - NN规则和NB分类器的分类准确率来评估MISAC算法在不同δ值下的性能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值