57、SP - TSRM：分布式存储系统中的数据分组策略

最新推荐文章于 2025-10-10 12:25:08 发布

算法笑匠

最新推荐文章于 2025-10-10 12:25:08 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：并行计算前沿探索文章标签： SP-TSRM 分布式存储系统数据分组策略

本文链接：https://blog.youkuaiyun.com/1a2s3d4f5g/article/details/153556483

并行计算前沿探索专栏收录该内容

70 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

SP - TSRM：分布式存储系统中的数据分组策略

一、背景与问题提出

随着智能设备和社交媒体的发展，大量非结构化数据被上传到分布式存储系统。这些数据在多用户、高并发访问的情况下，对传统为大文件设计的分布式存储系统带来了新挑战。非结构化数据具有读写频繁、很少更新和删除的特点，对数据服务器的读写效率有较高要求。为了不影响服务器的并发和实时服务数量，大多数互联网公司将这类数据存储到分布式存储平台。

然而，分布式存储系统架构主要针对大文件设计，在处理海量非结构化数据时，可能会在访问任务调度和元数据管理方面出现性能问题。为解决这一问题，研究人员提出了一系列方法，主要分为两类：
1. 文件写入优化 ：从文件写入过程入手，将较小的非结构化数据合并成较大文件进行存储，把多次 I/O 操作合并为单次操作，以提高磁盘写入速度。但由于文件写入的实时性要求高，通常采用顺序合并策略。
2. 数据预取 ：挖掘数据读取过程中的相关性，将高概率被访问的数据提前加载到内存或缓存中，通过提高缓存命中率来减少磁盘 I/O。这种方法对存储系统的可用性影响较小，有较大的研究空间。

二、相关工作分析

以往对文件关联挖掘的研究存在一些问题：
1. 频繁项挖掘算法 ：Kroger 等人提出通过用户对文件的访问来挖掘文件之间的关系。但在分布式存储环境中，事务和项的数量过多，频繁项挖掘结果包含满足支持度的所有文件集合，会导致组合爆炸，且计算结果包含大量冗余数据。
2. 图结构关联表示法 ：Wildani 等人提出用图

会员秒杀 ¥9.9 重磅福利

超级会员免费看