优质论文list(分布式系统/存储/索引相关)

本文探讨了Hadoop的改进方案及其在数据处理领域的应用,包括CoHadoop、Multi-dimensional Index on HDFS、HadoopDB等关键技术。文章还涉及了Azure云平台存储机制和实时数据处理技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明出处:http://blog.youkuaiyun.com/zbf8441372

5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011

主要提出了对hadoop的node上进行colorate data的改进。(不知道中文怎么翻译= =)与plain hadoop相比,提升了相应data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在于locator和locator table的提出和使用。将HDFS改装成应用层可以自己控制数据要存放的node集,使相关数据的各分拷贝可以存在同几个node下。node和locator是多对一的映射关系,locator table记录分发信息。每次有新数据和locator对进来,先查询table中国是否存在,若是新对,则先按HDFS默认的方式存(默认三分拷贝,存两个机架上,一个是本机架,一个是其他机架),若不是新对,则再去找那个node集中的适合的node存。


4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010

一篇中国人写的基于HDFS的多位索引的论文。主要是把R-tree建出来的index存在HDFS里。根据HDFS的特性和不足,增加一些改进,比如给node添加in-memory buffer或cache。


3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009

HadoopDB是一个混合系统。基本思想是用MapReduce作为与正在运行着单节点DBMS实例的多样化节点的通信层。查询语言用SQL表示,并用现有工具翻译成MapReduce可以接受的语言,使得尽可能多的任务可以被推送到每个高性能的单节点数据库上。主要思想share-nothing MPP架构和parallel databases。


2. Windows Azure Storage: A Highly Available Cloud Storage Service with Strong Consistency, SOSP,2011
微软Azure云平台的存储机制详细介绍,很不错。等仔细读了再编辑上来。


1. Apache Hadoop Goes Realtime at Facebook, SIGMOD, 2011

介绍了facebook引入Hadoop和HBase技术,怎样改装hadoop变得相对实时。hadoop毕竟还是面向批量数据处理的,Yahoo的Storm是一个实时的项目。论文中还是很好阐述了facebook对数据处理的需求,对比了MySQL集群,HDFS,HBase各种的读写特性。给HDFS的NameNode进行了Avator化,主要还是这个Avator之后的NameNode和DataNode的思路,算是他们自己的一种改进。当然,zookeeper还是无处不在。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值