hadoop-job-mapreduce培训遗留问题

本文探讨了Hadoop MapReduce中常见的几个问题:map任务数量的确定方式、Secondary NameNode的作用、数据块在DataNode间的分布情况以及MapReduce中排序的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.map的num是可以配置的,但是最终map的数量是由谁来决定的?map num?

   在splite代码中,我们看到了 map的数量由块的数量来决定,那么这里配置的这个数量到底是谁来决定的?

2.second namenode?

  second namenode 的是一个冷备份,如果namenode 节点出现故障的话,启动 second namenode  是不是可以是整个hadoop集群正常工作, 个人认为是可以的?待查资料?

 

3.block 是不是均匀分布 在各个datanode?

  举个例子,加入默认块的大小是 64M   我有10个节点,那么对一个640M 的文件做mapreduce是不是每个节点都会得到64M 这么一个块?个人认为是可以的?待查资料?

4.map的结果和reduce的输入都做了sort,为什么要做sort?

   其实有些程序是不需要做排序的,但是mapreduce默认实现了sort,为什么要做sort呢?

难道是仅仅简单的排序吗?sort是非常消耗性能的一件事情? 待查资料?

 

 

这是本次遇到的一些问题?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值