23、基于互信息的监督属性聚类在基因分类中的应用

基因分类中互信息监督聚类的应用研究

基于互信息的监督属性聚类在基因分类中的应用

1. 传统基因距离度量方法的局限性

在基因样本分类中,传统的距离度量方法如欧几里得距离和皮尔逊相关系数存在一定的局限性。
- 欧几里得距离 :它衡量的是每个基因个体大小的差异。然而,通过欧几里得距离被认为相似的基因,在形状上可能差异很大。同样,如果两个形状相同的基因之间存在较大的缩放因子差异,它们的欧几里得距离可能会很大。但在基因表达数据中,基因的整体形状是主要关注的对象,因此欧几里得距离可能无法对基因进行良好的邻近性测量。
- 皮尔逊相关系数 :将每个基因视为一个随机变量,通过计算两个相应随机变量分布之间的线性关系来衡量两个基因之间的相似性。但实证研究表明,皮尔逊相关系数对异常值不稳健,可能会给一对不相似的基因赋予较高的相似性得分。

2. 信息论度量的优势

t - 检验、F - 检验、威尔科克森检验、欧几里得距离和皮尔逊相关系数都依赖于微阵列数据的实际基因表达值,因此它们对数据集的噪声或异常值非常敏感。而信息论度量,如熵、互信息和 f - 信息,仅依赖于随机变量的概率分布,而不是其实际值,因此在评估基因 - 类别相关性以及基因 - 基因冗余性方面更有效。

互信息用于量化两个对象共享的信息。如果两个独立对象共享的信息不多,它们之间的互信息值就小;而两个高度相关的对象将显示出较高的互信息值。可以通过基因与其余部分以及基因与类别标签之间的共享信息来确定基因是否独立且具有信息性。如果一个基因的表达值在不同类别中随机或均匀分布,它与这些类别的互信息为零;如果一个基因在不同类别中有强烈的差异表达,它应该具有较大的互信息。因此,互

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值