今天读了《Towards Optimal Data Replication Across Data Centers》这篇论文。主要讲的是多数据中心的数据副本存放问题。
这篇文章的三个贡献是:提出了一种接近于最优解的减少数据访问延时的高效的,高可扩展的数据副本存放方法;设计了一种占用较低空间时间消耗的能够总结用户数量信息的技术;并且提出了能够证明这篇文章所提出的数据副本放置技术的能力的评估结果。
该算法主要包括四个阶段:构建网络坐标系,构建每个副本的用户坐标聚类,副本位置的测定和成本分析。
这篇论文的亮点是提出了一种基于用户位置的副本存放方法,跟以往最大的不同时它不依赖于每个独立的个体用户来记录信息,而是通过收集近期的用户访问数据来进行总结再决定副本的存放位置,节省空间时间并具有很强的拓展性。