基因网络模块线性判别分析与基因组断点距离计算算法
基因网络模块线性判别分析
在肿瘤分类研究中,使用微阵列基因表达数据进行分类是一种重要的手段。研究人员提出了一种基于基因网络模块的线性判别分析(MLDA)方法,旨在将基因间的“关键”相关结构纳入有监督的分类过程。
数据处理与验证方法
- 数据来源 :研究使用了三个真实的微阵列数据集,分别是结肠癌、前列腺癌和肺癌数据集。结肠癌微阵列表达数据从http://genomics - pubs.princeton.edu/oncology/获取;前列腺癌和肺癌微阵列数据集的原始数据从基因表达综合数据库(http://www.ncbi.nlm.nih.gov/geo/)下载,并使用稳健多阵列平均(RMA)算法进行预处理。
| 疾病 | 响应类型 | 样本数量 | 基因数量 |
| — | — | — | — |
| 结肠癌 | 肿瘤/正常 | 40 / 22 | 2000 |
| 前列腺癌 | 肿瘤/正常 | 50 / 38 | 12635 |
| 肺癌 | 肿瘤/正常 | 60 / 69 | 22215 | - 验证方法 :采用10折交叉验证,将数据集划分为10个子集,每次省略一个子集,根据构建的分类规则预测省略子集中样本的类别标签,重复此过程10次,使每个样本恰好被预测一次。确定分类错误率为错误预测样本数与给定研究中总样本数的比例。该10折交叉验证过程重复10次,并报告平均错误率。
分类方法与结果
研究将提出的MLDA算法与其
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



