
Hadoop
jewes
这个作者很懒,什么都没留下…
展开
-
实例阐述MapReduce中的基本概念
MapReduce是一种全新的编程模型,对于第一次接触MapReduce的人来讲,其中有些概念不是很容易理解。本文将运用一个实例来阐述MapReduce中涉及到的基本概念,包括InputSplit, Mapper, Combiner, Shuffle, Reducer。不足之处还请高手指正。假设现在高考成绩出来了,领导让你统计学校有多少考生上了一本线,考生的成绩打印在20张纸上原创 2013-06-12 14:41:50 · 3858 阅读 · 0 评论 -
Kerberos认证流程详解
Kerberos是诞生于上个世纪90年代的计算机认证协议,被广泛应用于各大操作系统和Hadoop生态系统中。了解Kerberos认证的流程将有助于解决Hadoop集群中的安全配置过程中的问题。为此,本文根据最近阅读的一些材料,详细介绍Kerberos认证流程。欢迎斧正!原创 2014-03-08 19:08:56 · 57847 阅读 · 19 评论 -
用Linux Container在单机上部署完全分布式的Hadoop集群
在Hadoop开发和学习过程中,经常需要部署一个完全分布式的Hadoop集群。而目前在单机上用得最多的方法就是用Vmware建虚拟机,不过一般的机器开3-4个虚拟机就差不多了。如果想在单机上(而且是虚拟机里面)跑10个节点Hadoop集群,那么可以考虑一下Linux Container。阅读本文你将得到:1. 如何在Centos上创建和使用Linux Container2. 简要的Linux Container使用方法原创 2014-03-24 23:25:17 · 5005 阅读 · 2 评论 -
Decommission Datanode
Decommission Datanode就是把Datanode从HDFS集群中移除掉。那问题来了,HDFS在设计时就把诸如机器故障考虑进去了,能否直接把某台运行Datanode的机器关掉然后拔走呢?我认为理论上可行的,不过在实际的集群中,如果某份数据只有一份拷贝而且它就在这个机器上,那么直接关掉并拔走机器就会造成数据丢失。本文将介绍如何Decommission Datanode以及可能会遇到的一些问题及其解决办法。原创 2014-10-14 23:33:24 · 8746 阅读 · 0 评论 -
详解HDFS Short Circuit Local Reads
Hadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。本文将介绍在优化Local Reads的一些方案。原创 2014-10-17 18:22:26 · 21741 阅读 · 0 评论