Hadoop 知识点安排

本文详细探讨了Hadoop的单元测试策略(MRUnit、LocalJobRunner和集群环境),单节点与伪集群的安装区别,核心配置文件的应用,以及Hadoop监控、性能管理和集群管理工具如Ambari的使用。重点讲解了如何进行单元测试、搭建不同规模集群和关键配置设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop 测试

Hadoop 测试

MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行.

LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.set("mapred.job.tracker", "local"); conf.set("fs.default.name", "file:"); FileSystem fs = FileSystem.getLocal(conf);

MiniMRCluster, MiniYarnCluster, MiniDFSCluster 多线程

Hadoop 安装

Hadoop安装

  • 单节点安装

    所有服务运行在一个JVM中,适合调试、单元测试

  • 伪集群

    所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试

  • 多节点集群

    服务运行在不同的机器中,适合生产环境

    配置公共帐号

方便主与从进行无密钥通信,主要是使用公钥/私钥机制 所有节点的帐号都一样 在主节点上执行 ssh-keygen -t rsa生成密钥对 复制公钥到每台目标节点中

Hadoop 配置

Hadoop配置

有两种配置文件:

一种是**-default.xml(只读,默认的配置)

一种是**-site.xml(替换default中的配置)

  • core-site.xml 配置公共属性

  • hdfs-site.xml 配置HDFS

  • yarn-site.xml 配置YARN

  • mapred-site.xml 配置MapReduce

配置文件应用的顺序:

  1. 在JobConf中指定的
  2. 客户端机器上的**-site.xml配置
  3. slave节点上的**-site.xml配置
  4. **-default.xml中的配置

如果某个属性不想被覆盖,可以将其设置成final

    <property>
        <name>{PROPERTY_NAME}</name>
        <value>{PROPERTY_VALUE}</value>
        <final>true</final>
    </property>

Hadoop 监控

Hadoop 监控

Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。

Hadoop集群性能监控Ganglia, Nagios

使用Hadoop工具 Ambari管理集群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值