
hadoop
文章平均质量分 73
晚起的鸟
哈哈哈
展开
-
mapreduce中reducers个数设置
MapReduce框架将文件分为多个splits,并为每个splits创建一个Mapper,所以Mappers的个数直接由splits的数目决定。而Reducers的数目可以通过job.setNumReduceTasks()函数设置,默认情况只有一个Reducer。在真正的集群环境下,如果默认,那么所有的中间数据会发送给唯一的Reducer,导致任务变得非常缓慢。究竟设多少个Reducers合适呢原创 2013-12-11 11:00:05 · 2349 阅读 · 0 评论 -
hdfs-JAVA-API
Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个: static FileSystem get(Config原创 2013-12-04 16:49:19 · 973 阅读 · 0 评论 -
hadoop2.2.0集群安装
说明:目前官方hadoop2.2只有32位的版本,安装到64位肯定有问题,比如执行jar包会提示没有本地库。。。。。。。。。如果要安装64位的,需要自己编译,这里不做阐述,一下都以32位说明。环境:试验使用的虚拟机ubuntu12.04(32位)。Jdk使用的1.7(1.6也可以)。网络配置好,相互可以ping通,java环境安装完毕。 第一部分 Hadoop 2.2下载原创 2013-12-02 09:11:56 · 2652 阅读 · 0 评论 -
hadoop各个进程的作用
一般如果正常启动Hadoop,我们可以在master上通过jps命令看到以下5个daemons:(单机)[root@master ~]# jps19803 SecondaryNameNode19994 TaskTracker31144 Jps19571 NameNode19672 DataNode19887 JobTracker下面依次介绍这些进程:1. Nam翻译 2013-11-18 13:38:45 · 6879 阅读 · 0 评论 -
hadoop测试题
单项选择题1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定3. 下列哪个程序通常与 NameNode 在一个节点启动?a)SecondaryNam翻译 2013-11-18 09:25:27 · 6082 阅读 · 2 评论 -
hadoop1.0与hadop2.0架构比较
刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce翻译 2013-10-22 13:26:26 · 2891 阅读 · 0 评论 -
hadoop2.2.0单机安装(记录)
说明:新版本hadoop与以前差异较大,很多进程不了解,这里只是初次安装做一下记录,有些地方很模糊,也有一些不懂甚至出错的地方安装JAVA从oracle官网下载,然后上传至机器[root@hadoop01 soft]# rpm -ivhjdk-7u45-linux-x64.rpm添加用户[root@OEL63 ~]# useradd hadoop[root@OEL63 ~]原创 2013-10-22 10:17:09 · 109 阅读 · 2 评论 -
hadoop性能优化——机架感知
(转) Hadoop性能优化:Hadoop机架感知实现及配置:分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于原创 2013-10-21 15:10:20 · 2311 阅读 · 0 评论 -
hdfs集群启动——NameNode任务线程之DecommissionManager$Monitor(3)
(转) 我们知道,在NameNode节点启动的时候,会启动一些后台的任务线程,例如:关于这些个后台监控线程有神马具体的用途,我在这里不会一一作出解释,但我会在以后的博文中来具体阐述,因为他们基本上担负起了整个NameNode节点的管理工作。在本文,我将具体的讲述DecommissionManager$Monitor这个后台工作线程。 先来看看Decommiss原创 2013-10-21 14:21:35 · 1230 阅读 · 0 评论 -
hdfs集群启动——datanode注册(2)
(转) 前面我已经就HDFS集群的启动问题在整体上进行了阐述,而在本文,我将主要针对DataNode节点在启动的过程中会首先向NameNode节点进行注册这一细节进行深入的讨论。 先来简单的讲一讲DataNode节点向NameNode节点进行注册的目的吧!DataNode节点向NameNode节点注册,一是告诉NameNode节点自己提供服务的网络地址端口,二是获取N原创 2013-10-21 13:39:17 · 1496 阅读 · 0 评论 -
hdfs集群启动——概述(1)
(转) 众所周知,在HDFS集群中,主要有两类节点,即NameNode和DataNode节点,确切的说,一个NameNode节点,其它的所有DataNode节点。那么,HDFS集群的启动就自然而然的可以看做是一个NameNode节点的启动和所有其它的DataNode节点的启动问题了。在这里我要不得不提的是,NameNode和DataNode有各自不同的启动方式,其中,NameN原创 2013-10-21 12:22:42 · 1201 阅读 · 0 评论 -
namenode format做了些什么
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。 我们都知道,NameNode主要被用来管理整个分布式文原创 2013-10-21 11:26:41 · 768 阅读 · 0 评论 -
hadoop1.x问题总结
1.启动hadoop、zookeeper、hbase后jps查看,服务已经都起来了。但是60010界面无法打开。50070正常,50030,nodes显示为0.查看日志:error: org.apache.hadoop.hdfs.server.namenode.SafeModeException:Cannot delete /home/hadoop/tmp/mapred/system. Name原创 2013-10-15 17:12:12 · 2273 阅读 · 0 评论 -
hadoop1系列单机安装
1.解压hadoop-1.0.3-bin.tar.gz放到指定目录下。2.安装java环境,参照文档3.Ssh无密登录4.修改conf下四个文件 Hadoop-env.sh: export JAVA_HOME=/usr/local/jdk..... Core-site.xml1 2 3 4 this file. --> 5原创 2013-09-27 15:48:18 · 1893 阅读 · 0 评论 -
hadoop的thriftserver配置
一.概述 默认的hbase安装包已经有了thrift服务,使用见hbase文档。Hadoop默认包没有thrift服务,即没有网上说的hadoophome/src/contrib/thriftfs/scripts/start_thrift_server.sh,因此需要手动编译,使用的编译工具是Ant。Bin包其实是已经编译过的安装包,所以不具有以上文件夹,无法编译,需要下载非bin的hado原创 2013-09-27 12:40:00 · 3492 阅读 · 1 评论