Hadoop 测试
Hadoop 测试
MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行.
LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.set("mapred.job.tracker", "local"); conf.set("fs.default.name", "file:"); FileSystem fs = FileSystem.getLocal(conf);
MiniMRCluster, MiniYarnCluster, MiniDFSCluster 多线程
Hadoop 安装
Hadoop安装
-
单节点安装
所有服务运行在一个JVM中,适合调试、单元测试
-
伪集群
所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试
-
多节点集群
服务运行在不同的机器中,适合生产环境
配置公共帐号
方便主与从进行无密钥通信,主要是使用公钥/私钥机制 所有节点的帐号都一样 在主节点上执行 ssh-keygen -t rsa生成密钥对 复制公钥到每台目标节点中
Hadoop 配置
Hadoop配置
有两种配置文件:
一种是**-default.xml(只读,默认的配置)
一种是**-site.xml(替换default中的配置)
-
core-site.xml 配置公共属性
-
hdfs-site.xml 配置HDFS
-
yarn-site.xml 配置YARN
- mapred-site.xml 配置MapReduce
配置文件应用的顺序:
- 在JobConf中指定的
- 客户端机器上的**-site.xml配置
- slave节点上的**-site.xml配置
- **-default.xml中的配置
如果某个属性不想被覆盖,可以将其设置成final
<property>
<name>{PROPERTY_NAME}</name>
<value>{PROPERTY_VALUE}</value>
<final>true</final>
</property>
Hadoop 监控
Hadoop 监控
Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。
Hadoop集群性能监控Ganglia, Nagios
使用Hadoop工具 Ambari管理集群