[Hadoop源码解读](四)MapReduce篇之Counter相关类

本文详细解释了如何在Hadoop MapReduce中使用Counter进行数据计数,包括Counter的定义、如何在Mapper和Reducer中增加计数,以及如何在Job完成后获取并输出特定Counter的值。同时介绍了Counter、CounterGroup和Counters的概念及其实现,以及如何通过properties文件本地化Counter的名字。


  当我们定义一个Counter时,我们首先要定义一枚举类型:

[html]  view plain copy print ?
  1. public static enum MY_COUNTER{  
  2.   CORRUPTED_DATA_COUNTER,  
  3.   NORMAL_DATA_COUNTER  
  4. };  

  然后,我们就可以在mapper或reducer里面增加它的值:

[html]  view plain copy print ?
  1. context.getCounter(MY_COUNTER.CORRUPTED_DATA_COUNTER).increment(1);  
  我们在第(一)篇讲InputFormat时,我们有看到Mapper.class中的Context类是继承与MapContext类的,而MapContext又继承与TaskInputOutputContext,我们可以从TaskInputOutputContext的getCounter()方法看见,这个方法实际上是调用了StatusReporter的getCounter()方法,StatusReporter在后面谈到。

  接着,我们在提交job,waitForCompletion()方法等待job执行完后,就可以通过

[html]  view plain copy print ?
  1. Counters counters = job.getCounters();  
  2. Counter counter = counters.findCounter(MYCOUNTER.CORRUPTED_DATA_COUNTER);  
  3. System.out.println(counter.getValue());  

  这样就将我们想要输出的计数器输出来。


  Counter对应我们写的enum类型中的一个枚举常量,比如MY_COUNTER.CORRUTED_DATA_COUNTER,它由name,displayName和value表示,value是Counter当前计数值。Counter、CounterGroup和Counters都实现了Writable接口,由于Counter是全局的,所以它们的读写方法都是synchronized方法,以保证线程安全。


  CounterGroup对应我们写的enum类型,比如MY_COUNTER。CounterGroup有name,displayName,TreeMap类型的counters,以及一个ResourceBoundle bundle。counters存放的是enum里面的所有枚举常量对应的Counter。而bundle是用来本地化Counter的名字的。举个例子:src\mapred\org\apache\hadoop\mapred下有一个JobInProgress_Counter.properties文件,内容是这样的:

[html]  view plain copy print ?
  1. # ResourceBundle properties file for job-level counters  
  2.   
  3. CounterGroupName=                  Job Counters   
  4.   
  5. NUM_FAILED_MAPS.name=              Failed map tasks  
  6. NUM_FAILED_REDUCES.name=           Failed reduce tasks  
  7. TOTAL_LAUNCHED_MAPS.name=          Launched map tasks  
  8. TOTAL_LAUNCHED_REDUCES.name=       Launched reduce tasks  
  9. OTHER_LOCAL_MAPS.name=             Other local map tasks  
  10. DATA_LOCAL_MAPS.name=              Data-local map tasks  
  11. RACK_LOCAL_MAPS.name=              Rack-local map tasks  
  12. FALLOW_SLOTS_MILLIS_MAPS.name=     Total time spent by all maps waiting after reserving slots (ms)  
  13. FALLOW_SLOTS_MILLIS_REDUCES.name=  Total time spent by all reduces waiting after reserving slots (ms)  
它存放的是job级别的counters的本地化名字。形式是name = displayName。

这样,我们就可以每次利用name从改文件中读取displayName,使得当我们改变这个properties文件中的某个displayName的时候,不需要改动程序。


   Counters是一个Job的Counter最后的汇聚地,在分析Job类得时候,我们看到Job.getCounters()方法是用RunningJob得到的,而RunningJob是获取作业情况的一组接口。因为Counters会最终被JobTracker收集,要不断从TaskTracker收集并更新,因此它包含一个缓冲最近读的Counter的cache来进行优化,它还有一个存储Job的所有Counter的TreeMap。当我们使用findCounter((Enum<?> key)方法查找Counter时,它会先在cache中查找,如果没有找到,则会从TreeMap中查找并放入cache中。Counters还实现了Iterable接口,以支持对Counters的遍历。另外还提供了increase所以Counter的方法incrAllCounters()。

采用PyQt5框架与Python编程语言构建图书信息管理平台 本项目基于Python编程环境,结合PyQt5图形界面开发库,设计实现了一套完整的图书信息管理解决方案。该系统主要面向图书馆、书店等机构的日常运营需求,通过模块化设计实现了图书信息的标准化管理流程。 系统架构采用典型的三层设计模式,包含数据存储层、业务逻辑层和用户界面层。数据持久化方案支持SQLite轻量级数据库与MySQL企业级数据库的双重配置选项,通过统一的数据库操作接口实现数据存取隔离。在数据建模方面,设计了包含图书基本信息、读者档案、借阅记录等核心数据实体,各实体间通过主外键约束建立关联关系。 核心功能模块包含六大子系统: 1. 图书编目管理:支持国际标准书号、中国图书馆分法等专业元数据的规范化著录,提供批量导入与单条录入两种数据采集方式 2. 库存动态监控:实时追踪在架数量、借出状态、预约队列等流通指标,设置库存预警阈值自动提醒补货 3. 读者服务管理:建立完整的读者信用评价体系,记录借阅历史与违规行为,实施差异化借阅权限管理 4. 流通业务处理:涵盖借书登记、归还处理、续借申请、逾期计算等标准业务流程,支持射频识别技术设备集成 5. 统计报表生成:按日/月/年周期自动生成流通统计、热门图书排行、读者活跃度等多维度分析图表 6. 系统维护配置:提供用户权限分级管理、数据备份恢复、操作日志审计等管理功能 在技术实现层面,界面设计遵循Material Design设计规范,采用QSS样式表实现视觉定制化。通过信号槽机制实现前后端数据双向绑定,运用多线程处理技术保障界面响应流畅度。数据验证机制包含前端格式校验与后端业务规则双重保障,关键操作均设有二次确认流程。 该系统适用于中小型图书管理场景,通过可扩展的插件架构支持功能模块的灵活组合。开发过程中特别注重代码的可维护性,采用面向对象编程范式实现高内聚低耦合的组件设计,为后续功能迭代奠定技术基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值