BiobankCloud:生物样本库数据管理的创新平台
1. 元数据管理
在生物样本库的数据管理中,需要诸如基因组所属的样本和样本集、样本类型以及捐赠者信息等内容。为此,提供了一个用户界面(UI)工具,方便非编程背景的生物样本库工作人员设计与基因组、样本集、数据集或研究相关的扩展元数据。这些扩展元数据与文件系统元数据存储在同一数据库中,并通过外键关联到元数据所引用的文件或目录,以此保证其完整性。为了使扩展元数据可搜索,会将其异步透明地复制到 Elasticsearch 中,实现对样本的自由文本搜索。
2. HopsYARN
HopsYARN 是 Apache YARN 的一种实现,它将元数据迁移到了 MySQL Cluster。YARN 的资源管理器被划分为两部分:
- 资源跟踪器节点(ResourceTracker nodes):处理来自节点管理器的心跳信息,并向其发送命令。
- 单个调度器节点(single scheduler node):实现资源管理器的其他所有服务。
如果调度器节点出现故障,领导者选举服务会从资源跟踪器节点中选出一个新的调度器,并从数据库中加载调度器状态。与 Apache YARN 相比,HopsYARN 能够处理更大规模的集群,因为资源跟踪工作从调度器节点转移到了其他节点,且资源跟踪流量随集群规模线性增长,这将有助于在单个系统中分析更多的基因组数据。
3. SAASFEE
为了处理当今生物样本库中存储的大量基因组数据,研究人员拥有多种工具。这些工具常相互配合使用,形成复杂的分析流程。科学工作流管理系统(SWfMSs)可促进这些分析流程的设计、优化、执行、监控、共享和维
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



