优质论文list（分布式系统/存储/索引相关）

最新推荐文章于 2025-07-20 10:27:11 发布

最新推荐文章于 2025-07-20 10:27:11 发布 · 134 阅读

文章标签：

#大数据 #数据库

本文探讨了Hadoop的改进方案及其在数据处理领域的应用，包括CoHadoop、Multi-dimensional Index on HDFS、HadoopDB等关键技术。文章还涉及了Azure云平台存储机制和实时数据处理技术。

转载请注明出处：http://blog.youkuaiyun.com/zbf8441372

5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011

主要提出了对hadoop的node上进行colorate data的改进。（不知道中文怎么翻译= =）与plain hadoop相比，提升了相应data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在于locator和locator table的提出和使用。将HDFS改装成应用层可以自己控制数据要存放的node集，使相关数据的各分拷贝可以存在同几个node下。node和locator是多对一的映射关系，locator table记录分发信息。每次有新数据和locator对进来，先查询table中国是否存在，若是新对，则先按HDFS默认的方式存（默认三分拷贝，存两个机架上，一个是本机架，一个是其他机架），若不是新对，则再去找那个node集中的适合的node存。

4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010

一篇中国人写的基于HDFS的多位索引的论文。主要是把R-tree建出来的index存在HDFS里。根据HDFS的特性和不足，增加一些改进，比如给node添加in-memory buffer或cache。

3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009

HadoopDB是一个混合系统。基本思想是用MapReduce作为与正在运行着单节点DBMS实例的多样化节点的通信层。查询语言用SQL表示，并用现有工具翻译成MapReduce可以接受的语言，使得尽可能多的任务可以被推送到每个高性能的单节点数据库上。主要思想share-nothing MPP架构和parallel databases。

2. Windows Azure Storage: A Highly Available Cloud Storage Service with Strong Consistency， SOSP，2011
微软Azure云平台的存储机制详细介绍，很不错。等仔细读了再编辑上来。

1. Apache Hadoop Goes Realtime at Facebook， SIGMOD， 2011

介绍了facebook引入Hadoop和HBase技术，怎样改装hadoop变得相对实时。hadoop毕竟还是面向批量数据处理的，Yahoo的Storm是一个实时的项目。论文中还是很好阐述了facebook对数据处理的需求，对比了MySQL集群，HDFS，HBase各种的读写特性。给HDFS的NameNode进行了Avator化，主要还是这个Avator之后的NameNode和DataNode的思路，算是他们自己的一种改进。当然，zookeeper还是无处不在。