微阵列分类中集合水平技术的比较评估
研究背景与目标
在基因表达数据的机器学习分析中,涉及基因集的选择和聚合等因素,这些因素会影响分类器的预测准确性。本研究旨在对基因集框架的多个方面和技术进行全面实验评估,以确定不同技术在预测分类中的表现,并建立一个客观比较基因集选择技术的框架。通过交叉验证程序进行无偏准确性估计,判断基因集选择结果的优劣。
方法与数据
- 基因集排名方法 :
- GSEA :测试基因集中基因排名是否随机分布,通过计算富集分数(ES)来评估基因集与表型的关联度。具体步骤为,先根据基因与二元表型的相关性对基因集进行排序,然后在排序后的基因列表中计算ES,最后通过基于表型的排列测试估计ES的统计显著性。不过,它可能会将统计显著性赋予与表型无关的基因集,且检测能力不如一些新的测试统计方法。
- SAM - GS :测试基因集内基因表达的均值向量是否因表型而异。将每个样本视为n维欧几里得空间中的点,基因集定义其对应维度的子空间,通过样本在子空间的投影判断基因集的优劣,测量聚类中心的欧几里得距离并进行排列测试。
- Global Test :与SAM - GS类似,将表达样本投影到基因集定义的子空间,但通过拟合回归函数来判断两个聚类的分离程度,回归函数的系数大小对应分离程度。
- 表达聚合方法 :
- Ave
超级会员免费看
订阅专栏 解锁全文
1082

被折叠的 条评论
为什么被折叠?



