基于互信息的监督属性聚类算法实验结果分析
1. 实验数据概述
实验涉及多种数据集,包括癌症和关节炎相关的微阵列数据集。如类风湿关节炎与健康对照(RAHC)数据集,包含32名类风湿关节炎患者、3名可能患有类风湿关节炎患者以及15名年龄和性别匹配的健康对照的外周血细胞基因表达谱,在复杂度约为26K独特基因(43K元素)的微阵列上进行分析。
2. 阈值δ的优化
2.1 阈值δ的作用
阈值δ在(9.13)中对形成初始粗聚类起着重要作用,它控制着聚类属性之间的相似度,直接影响MISAC算法的性能。当δ增大时,聚类中的属性数量减少,但属性间相对于样本类别的相似度增加;反之,δ减小时,聚类属性间的相似度降低。
2.2 确定最优阈值
为找到最优的δ值,使用类可分性指数S。对于五个微阵列数据集,将δ值从0.80变化到1.0,并仅针对最佳聚类(c = 1)计算类可分性指数。通过以下关系获得每个微阵列数据集的最优δ值:
[
\delta_{optimum} = \arg \min_{\delta} {S }
]
不同数据集的最优δ值如下:
| 数据集 | 最优δ值 |
| ---- | ---- |
| 乳腺癌 | 0.97 |
| 白血病 | 0.96 |
| 结肠癌 | 0.93 |
| RAHC | 0.98 |
| RAOA | 0.96 |
2.3 不同δ值下MISAC算法的性能
通过SVM、K - NN规则和NB分类器的分类准确率来评估MISAC算法在不同δ值下的性能
超级会员免费看
订阅专栏 解锁全文
1176

被折叠的 条评论
为什么被折叠?



