SP - TSRM:分布式存储系统中的数据分组策略
一、背景与问题提出
随着智能设备和社交媒体的发展,大量非结构化数据被上传到分布式存储系统。这些数据在多用户、高并发访问的情况下,对传统为大文件设计的分布式存储系统带来了新挑战。非结构化数据具有读写频繁、很少更新和删除的特点,对数据服务器的读写效率有较高要求。为了不影响服务器的并发和实时服务数量,大多数互联网公司将这类数据存储到分布式存储平台。
然而,分布式存储系统架构主要针对大文件设计,在处理海量非结构化数据时,可能会在访问任务调度和元数据管理方面出现性能问题。为解决这一问题,研究人员提出了一系列方法,主要分为两类:
1. 文件写入优化 :从文件写入过程入手,将较小的非结构化数据合并成较大文件进行存储,把多次 I/O 操作合并为单次操作,以提高磁盘写入速度。但由于文件写入的实时性要求高,通常采用顺序合并策略。
2. 数据预取 :挖掘数据读取过程中的相关性,将高概率被访问的数据提前加载到内存或缓存中,通过提高缓存命中率来减少磁盘 I/O。这种方法对存储系统的可用性影响较小,有较大的研究空间。
二、相关工作分析
以往对文件关联挖掘的研究存在一些问题:
1. 频繁项挖掘算法 :Kroger 等人提出通过用户对文件的访问来挖掘文件之间的关系。但在分布式存储环境中,事务和项的数量过多,频繁项挖掘结果包含满足支持度的所有文件集合,会导致组合爆炸,且计算结果包含大量冗余数据。
2. 图结构关联表示法 :Wildani 等人提出用图
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



