融合文件系统与数据库以适配网格环境
1. 引言
在分布式计算领域,网格和云等大型架构发挥着至关重要的作用。然而,数据组织与大规模数据管理问题成为了潜在用户使用这些架构的主要障碍。例如,在生物信息学领域,基因组测序项目众多,研究人员使用的应用程序多以扁平文件作为输入和输出。这些文件由一系列条目组成,处理时需顺序读取。因此,高效访问这些文件并结合缓存技术以节省数据传输和减少 I/O 操作至关重要。
传统文件是科研人员常用的数据组织抽象形式,大多数现有软件也能对其进行利用。但数据库生成的结果格式与遗留应用程序的集成较为繁琐,在大规模分布式环境中使用也存在困难。
Gedeon 项目旨在提出一种混合数据管理中间件,以实现简单、高效且语义丰富的数据管理。它将数据库功能与文件系统的易用性和高效性相结合,为用户提供分布式数据源的集中式文件系统视图,并提供灵活的缓存解决方案以提高响应时间。
2. 数据模型、查询功能与接口
2.1 数据模型
许多科学原始数据以扁平文件形式存在,这些数据集合可视为包含数据和元数据的大量记录。数据模型和结构相对简单,元数据常以(属性,值)对的形式呈现。这种数据结构模型因其简单性和易于扩展的特点而被广泛使用。
为了增强此类数据的管理,提供了二阶查询功能(对属性值和名称的条件查询),无需进行复杂的数据重构,同时保留了广泛使用的文件接口。数据查询提供了三个抽象层次:数据源是一组可本地或远程访问的文件,文件由记录组成,记录是(属性,值)对的列表。最低层(文件层)可通过基本文件接口访问,最高层(属性 - 值对)可通过语义查询访问。在最低层,Gedeon 数据源由标准操作系统文件组成,存储层的额
超级会员免费看
订阅专栏 解锁全文
458

被折叠的 条评论
为什么被折叠?



