11、高通量数据信息质量管理的现状与挑战

最新推荐文章于 2025-10-24 15:17:21 发布

study

最新推荐文章于 2025-10-24 15:17:21 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：生物数据库建模：从理论到实践文章标签：高通量数据数据质量管理转录组学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/study/article/details/150597888

生物数据库建模：从理论到实践专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高通量数据信息质量管理的现状与挑战

在生物学研究中，转录组学和蛋白质组学实验产生的高通量数据的质量问题一直是科学家们面临的重要挑战。这些数据的质量受到生物和技术变量的复杂影响，而数据质量的高低又直接影响着研究结果的可靠性和可重复性。

1. 基因本体论相关研究

在基因研究领域，有两项重要的研究成果。首先，基于基因本体论（GO）结构上定义的度量函数，研究人员通过统计证据得出，在各种特定假设下，相关假设是有效的。例如，当数据集仅限于那些注释得到已发表文献支持的蛋白质时，而不是从一些间接数据源推断得出的注释，该假设成立。

其次，有研究对不同数据库中直系同源物的注释一致性进行了探讨。通过对小鼠和人类蛋白质集的实验，不仅对注释错误和不匹配进行了有用的分类，还开发出了有效的检测技术。这些研究在一定程度上定量验证了一个主要观点，即术语标准化能够提高注释过程的可信度，并促进信息的检索。

2. 当前提高数据质量的方法

为了应对领域的复杂性和可用技术的广泛差异，信息管理界采用了一种基于以下两个方面的标准化通用方法，这对信息质量管理具有重要意义。

2.1 来源元数据的建模、收集和使用

在实验过程中，存在许多影响实验结果的可变因素，关于这些变量及其影响的元信息，也就是实验设计和实验执行细节，被称为来源信息。近年来，人们逐渐认识到以正式且机器可处理的方式捕获来源信息对于促进实验室间的互操作性和一致性的重要性。不过，来源信息在解决质量问题方面的作用尚未得到很好的规范。

目前，研究人员正致力于利用来源信息和其他类型的元数据，让科学家能够正式表达质量偏好，即定义基于潜在质量指标选择或丢弃数据的决策程序。 <

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。