最大团枚举问题的研究与优化
1. 数据集与图构建
在生物研究中,为了分析基因表达数据,使用了三个不同的数据集。其中两个数据集来自小家鼠(小鼠)的实验,第三个数据集来自酿酒酵母(酵母)的实验。在所有三个数据集中,均使用mRNA微阵列来测量mRNA表达的强度。
- 第一个数据集 :使用包含45127个探针的微阵列,收集了来自41种不同BXD品系成年小鼠标本的表达数据。数据按性别进行了分离,从雌性数据构建了13个图,从雄性数据构建了12个图。
- 第二个数据集 :使用包含46632个探针的微阵列,测量了两个不同品系(C57BL/6和DBA/2J)小鼠在产前和产后发育连续几天的表达情况,分别在12个和13个时间点进行测量。
- 第三个数据集 :使用包含6214个探针的微阵列,测量了酵母在16种不同氧气水平和15种葡萄糖浓度下的表达情况。
为了分析这些表达数据,首先构建加权图,其中顶点代表探针,边的权重是在实验条件下计算的皮尔逊相关系数。然后,通过仅保留权重等于或高于某个选定阈值t的边,将加权图转换为无权图。通过使用0.7到0.94之间的增量值t(这是分析微阵列数据时常用的相关值范围),得到了各种大小和密度的图测试平台。图的大小和密度值都在生物数据集工作中常见的范围内,最小的图有5300个顶点和292829条边,最大的图有30033个顶点和1818945条边。
测试平台中图的最大团数量范围从5到47496,且基于图的大小或密度没有明显的模式。最大团的数量对图的微小变化极为敏感,即使修改一条边也可能产生巨大影响。例如,一个具有唯一大小为k的最大团以及
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



