新DNA搜索引擎为生物学大数据带来秩序
MetaGraph将庞大数据档案压缩成科学家可用的搜索引擎,开启了生物发现的新前沿。
互联网有谷歌。如今生物学有了MetaGraph。今日在《自然》杂志详细介绍的该搜索引擎能够快速筛选公共存储库中存储的惊人体积的生物数据。
巴黎巴斯德研究所生物计算研究员Rayan Chikhi表示:“这是一项巨大成就。他们为分析原始生物数据设立了新标准”——包括来自包含数百万亿DNA字母数据库的DNA、RNA和蛋白质序列,形成"petabases"级信息,条目数量超过某中心庞大索引中的所有网页。
尽管MetaGraph被标记为"DNA版某中心",但Chikhi将该工具比作某视频平台的搜索引擎,因为任务对计算要求更高。就像某视频平台搜索可以检索每个包含红色气球的视频,即使这些关键词没有出现在标题、标签或描述中,MetaGraph可以在不需要预先明确注释的情况下,发现隐藏在庞大测序数据集深处的遗传模式。
Chikhi说:“它实现了任何其他方式都无法完成的事情。”
为生命图书馆编制索引
MetaGraph背后的动机是解决测序数据集中的可访问性问题。这些存储库的规模在过去几十年中以惊人的速度增长,但这种增长给使用其中数据的科学家带来了挑战。原始测序读段是碎片化的、有噪声的,且数量过多无法直接搜索。加拿大某大学计算生物学家Artem Babaian表示:“矛盾的是,数据量是我们实际使用数据的主要障碍。”
根据该研究作者之一、瑞士某联邦理工学院生物信息学家André Kahles的说法,MetaGraph可以帮助研究人员对诸如序列读段档案(SRA)等存储库提出生物学问题,该公共数据库包含超过100百万亿DNA字母。
他们通过使用数学"图"解决了这个问题,这些图将重叠的DNA片段链接在一起,就像共享相同单词的句子在书籍索引中排列一样。
研究人员整合了来自七个公共资助数据存储库的数据,创建了1880万个独特的DNA和RNA序列集和2100亿个氨基酸序列集,涵盖所有生命分支——包括病毒、细菌、真菌、植物和动物,包括人类。他们还为这些序列开发了一个搜索引擎,用户可以使用文本提示搜索这些整合的原始数据档案。
Kahles说:“这是与这些数据主体互动的全新方式。它是压缩的,但可以即时访问。”
为了证明MetaGraph的实用性,研究作者使用它扫描了241,384个人类肠道微生物组样本,寻找全球抗生素耐药性的遗传指标,这项工作建立在早期版本工具的基础上,该工具用于追踪主要城市中心地铁系统中生活的细菌菌株中的耐药基因。作者表示,他们在一台高性能计算机上大约一小时内完成了分析。
发现的开放道路
MetaGraph并非目前唯一提供的大规模序列搜索工具。
例如,Chikhi和Babaian构建了一个名为Logan的平台,它将数十亿个短测序读段拼接在一起,形成更长、更有组织的DNA片段。这种设计架构使系统能够在整个测序读段集合中发现完整基因及其变体,比MetaGraph可能处理的集合更大,尽管存在某些权衡。Chikhi说:“我们功能较少但性能更高。”
Logan的额外覆盖范围帮助研究人员发现了在各种细菌、真菌和昆虫中发现的超过2亿种天然存在的塑料降解酶版本——包括一些比实验室设计的酶效果更好的版本。Chikhi和Babaian在上个月发布的预印本中报告了他们的发现。
他们和其他人还使用了一个早期、范围较窄的针对病毒DNA存储库的搜索工具,揭示了工程化T细胞疗法中大量先前未记录的病毒和病毒污染物。
据Babaian称,这样的发现没有两件事是不可能的:开源搜索工具,可在metagraph.ethz.ch和logan-search.org等网站获得,以及它们利用的公共测序存储库。随着资金削减威胁其他类型的生物数据库,Babaian强调这些搜索创新凸显了"开放数据共享的关键重要性"。
Babaian说:“这些是推动全球科学进步的资源。它们正在开辟一个全新的petabase规模基因组学领域”——最具影响力的应用尚未到来。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
990

被折叠的 条评论
为什么被折叠?



