数据管理与存储技术:Gedeon 与多维数组在云环境中的应用
1. Gedeon 中间件的数据处理与应用
1.1 数据基础构成与处理
在数据处理中,存在参考数据(Bref)、用户自身数据和社区数据(Bcom)三种数据源。用户要处理的基础数据是这三者的组合。由于参考数据通常是远程且被大量使用的,所以会进行复制,查询会通过轮询的方式发送到其中一个副本。社区数据会为数据添加与特定社区相关的新属性,该文件根据其正式程度可以是本地或远程的。通过连接操作定义别名 Benrich1 来用 Bcom 丰富 Bref。而 Banot 仅包含 Bcom 中已有的属性名,且包含社区层面尚未有的额外信息,通过联合操作创建新别名 Benrich2 来用 Banot 丰富 Benrich1。
1.2 生物信息学实验
1.2.1 生物信息学文件处理
生物信息学实验使用 Gedeon 中间件处理生物信息学数据。以 SwissProt 数据库为例,它是一个包含不同物种蛋白质序列的生物数据库,以大的 ASCII 文件形式存在(750MB),由不同的条目序列组成,每行以两个字符的代码开头,表明该行包含的数据类型。将这种文件转换为基于属性/值模型的 Gedeon 文件很简单,每个序列对应一条记录,记录是属性 - 值对的列表,属性名由前两个字符给出,值由该行其余部分给出。使用 Gedeon 可以轻松构建序列子集,例如,通过查询 “$OC==/Bacteria/ && $OC==/Clostridia/” 可以轻松构建一个包含所有 OC 行包含 “Bacteria” 和 “Clostridia” 的条目的文件。
超级会员免费看
订阅专栏 解锁全文
1107

被折叠的 条评论
为什么被折叠?



