
Hadoop
iteye_4660
这个作者很懒,什么都没留下…
展开
-
MapReduce的执行机制
当我们只用几行代码就可以运行一个MapReduce作业时,我们是否知道其实里面隐藏着大量的执行细节.本文就是来揭示一个Hadoop运行作业的执行细节. 运行MapReduce作业的过程将包含以下四个实体 1. 客户端.提交hadoop作业 2. 分布式文件系统(一般为HDFS), 3. JobTracker.协调作业的运行 4. TaskT...原创 2012-03-17 15:24:09 · 88 阅读 · 0 评论 -
MapReduce的输入输出机制
MapReduce确保每个reducer的输入都按键排序.将map的输出作为输入传给reducer的过程称为shuffle,学习shuffle是如何工作的有助于我们更好的理解MapReduce 每个Map任务都有一个内存缓冲区,用于存储任务的输出,默认情况下缓冲区的大小为100MB,一旦缓冲区内容达到阙值(默认0.8),一个后台线程便会把内容写到磁盘.在写磁盘的过程中...2012-04-07 15:47:53 · 455 阅读 · 0 评论 -
zookeeper中几个相关实体和它们之间的交互
zookeeper是一个开源的分布式协调服务,其独特的"leader-follower"集群模式,"过半成功"的写策略,很好的解决了分布式单点问题.zookeeper包含leader,follower,znode三个重要实体. leader: zookeeper集群中所有机器通过一个选择过程来选定一台被称为"leader"的机器,leader提供读,写,选举操作 f...2012-04-30 21:48:17 · 140 阅读 · 0 评论 -
Hbase的基本概念及交互过程
Hbas是一个在HDFS上实现的面向列的分布式数据库,非常适合实时地随机读/写超大规模数据集 行,列族,列,主键 Hbase中的行类似于数据库中的行,表中的行根据行的键值(也就是表的主键)进行排序,排序根据字节序进行,所有对表的访问都要通过表的主键 行中的列分成”列族”,所有的列族成员有相同的前缀.如company:name,company:address都是列...2012-05-06 11:02:22 · 171 阅读 · 0 评论