NNBench执行过程和参数说明

最新推荐文章于 2024-07-25 16:38:33 发布

dataee

最新推荐文章于 2024-07-25 16:38:33 发布

阅读量1.9k

点赞数

分类专栏： MapReduce 文章标签：大数据

MapReduce 专栏收录该内容

54 篇文章

订阅专栏

本文介绍使用NNBench工具测试Hadoop集群中namenode负载的方法。具体包括测试参数配置、执行流程及示例命令。通过调整mapper数量、文件大小等参数，评估Hadoop系统的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：

基于NNBench测namenode的负载

测试参数说明：

-operation 
-maps mapper数
-reduces reducer数
-startTime 开始时间
-blockSize block size
-bytesToWrite 文件写入字节数单位为b
-bytesPerChecksum  条件blockSize % bytesPerChecksum == 0
-numberOfFiles 生成的文件数
-replicationFactorPerFile 
-baseDir 根路径
-readFileAfterOpen

执行过程：

0.输入检查是否合法
1.cleanupBeforeTestrun 删除已有的基于-baseDir的数据
2.createControlFiles 生成控制文件基于baseDir/CONTROL_DIR_NAME/NNBench_Controlfile_i(numberOfMaps)
3.执行mapper的时候基于controlfile生成mapper个数，每个mapper基于operation 进行相应的操作，如doCreateWriteOp每个mapper又基于numberOfFiles生成numberOfFiles个文件
此处针对OP_CREATE_WRITE有个bug，那么就是写的文件基于host的，那么当一个计算节点启动多个mapper的时候就会重复写，也就是并发写，因此此处是个小缺陷
4.执行reducer时写入统计的信息
5.对写入的统计信息做分析出result

举例：

bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-client-jobclient-2.3.0-cdh5.0.0-tests.jar nnbench -operation create_write -maps 4 -reduces 2 -bytesToWrite 1 -numberOfFiles 2 -replicationFactorPerFile 3 -readFileAfterOpen true -baseDir /benchmarks/NNBench