高通量生物数据的系统解读
1. 引言
MATLAB 已从基于命令行的“矩阵实验室”发展成为功能齐全的编程环境。但它真的适合用于实现大型软件包吗?如果要在服务器上运行,且首选 Unix 作为服务器操作系统,情况又如何呢?要是有更多与问题相关的统计方法在 R 语言中可用,又该怎么办?
“多条件杂交处理系统”(M - CHiPS)的例子为这些问题提供了肯定的答案。该系统目前包含超过 13,000 次杂交、孵育、凝胶电泳、运行等数据,涵盖了所有常见的微阵列转录组学平台,还有基因组芯片数据、基于芯片的甲基化数据、二维差异凝胶电泳(2D - DIGE)凝胶数据、抗体阵列(单通道和双通道)以及 TMT 6 - 重质谱/质谱(MS/MS)数据。除了肿瘤活检数据,它还包含了如布氏锥虫、白色念珠菌和烟曲霉等模式生物的数据,目前共有 11 种生物的数据。
M - CHiPS 不仅集成了来自不同技术平台的异质数据,还记录了与实验相关的协议信息、样本生物学和临床数据。所有这些数据都以统计上可访问的格式获取和存储,并集成到探索性数据分析中,从而将基因表达模式与生物和/或临床数据相关联并进行解释。
2. 高通量生物数据
生物信息学是一个相对较新的领域。它始于对积累的序列数据进行解读的需求,因此基因和/或蛋白质序列分析可被称为“经典”生物信息学。如今,序列分析只是众多生物信息学子领域之一。
“组学”数据可以在一次测量中记录生物体许多甚至所有基因的状态。基因的状态可以在不同的调控水平上进行测量,对应于基因表达中涉及的不同过程。例如,基因组学涉及所有基因的丰度和序列,表观基因组学数据记录基因的甲基化程度,转录组学数据反映转录本水平,蛋白质组学数据记录蛋
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



