高通量数据信息质量管理的现状与挑战
在生物学研究中,转录组学和蛋白质组学实验产生的高通量数据的质量问题一直是科学家们面临的重要挑战。这些数据的质量受到生物和技术变量的复杂影响,而数据质量的高低又直接影响着研究结果的可靠性和可重复性。
1. 基因本体论相关研究
在基因研究领域,有两项重要的研究成果。首先,基于基因本体论(GO)结构上定义的度量函数,研究人员通过统计证据得出,在各种特定假设下,相关假设是有效的。例如,当数据集仅限于那些注释得到已发表文献支持的蛋白质时,而不是从一些间接数据源推断得出的注释,该假设成立。
其次,有研究对不同数据库中直系同源物的注释一致性进行了探讨。通过对小鼠和人类蛋白质集的实验,不仅对注释错误和不匹配进行了有用的分类,还开发出了有效的检测技术。这些研究在一定程度上定量验证了一个主要观点,即术语标准化能够提高注释过程的可信度,并促进信息的检索。
2. 当前提高数据质量的方法
为了应对领域的复杂性和可用技术的广泛差异,信息管理界采用了一种基于以下两个方面的标准化通用方法,这对信息质量管理具有重要意义。
2.1 来源元数据的建模、收集和使用
在实验过程中,存在许多影响实验结果的可变因素,关于这些变量及其影响的元信息,也就是实验设计和实验执行细节,被称为来源信息。近年来,人们逐渐认识到以正式且机器可处理的方式捕获来源信息对于促进实验室间的互操作性和一致性的重要性。不过,来源信息在解决质量问题方面的作用尚未得到很好的规范。
目前,研究人员正致力于利用来源信息和其他类型的元数据,让科学家能够正式表达质量偏好,即定义基于潜在质量指标选择或丢弃数据的决策程序。 <
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



