三 概要模式 3) MR计数器计数 。无 reduce 计数

本文详细解析了Hadoop框架中的计数器模式,包括如何在Map阶段直接输出结果,避免中间输出,提高MR效率并节省IO。同时介绍了如何在MR结束后获取框架的计数器信息,并将其写入日志、本地文件系统或HDFS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

计数器模式讲解:
          先讲一下,就是说只用 Map 阶段   不需要 Reduce 。 也就是说去掉了中间输出,而是Map 直接输出结果。大大提高了 MR 的效率且节省了 MR 中间输出读入的 IO 。

Hadoop 框架支持
         在 MR 结束时,只需要简单的获取框架的计数器信息并将结果写入到任意地方。 包括日志、本地文件系统、HDFS 等。  Hadoop 框架中内置了一些计数器的支持。 例如输入、输出的记录数和字节数。 Hadoop 支持开发者根据自己的需要创建自定义计数器。 

适用场景:
         在一个大数据集上收集技术或汇总。
         需要创建的计数器数目很小——两位数字以内。

结构:
         简单的讲:TaskTracker 聚合并增量汇报给 JobTracker 。 JobTracker 完成整体聚合。 所有的工作只需要在 map 过程中完成。 不需要 combiner、partitioner 或 reduce 过程。




转载于:https://www.cnblogs.com/rocky24/p/b8d305cf1f9d8b863c85359e6eff7ef2.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值