[ hadoop ] 集群性能调优全面总结

本文详细介绍了Hadoop框架的优化方法,涵盖HDFS、MapReduce和YARN的调优策略。包括HDFS的NameNode内存配置、心跳并发、回收站设置、集群压测、多目录配置、故障排除,以及存储优化如纠删码和异构存储。MapReduce调优关注核心参数调整,解决数据倾斜问题。Yarn调优涉及ResourceManager和NodeManager参数优化,确保集群高效运行。最后提出了综合调优方案,解决小文件问题。

引子

文章涵盖了hadoop框架的三个组成架构各自的优化方法,涉及存储,计算,故障排除等多个方面的具体调优内容,先后解决HDFS,MapReduce,Yarn的常见问题,最终结合小文件问题给出了Hadoop综合调优.

image-20220318115646436

1 HDFS调优

1.1 核心参数

1.1.1 NameNode内存

  1. Hadoop2.x系列,NN内存默认2000M,根据服务器(以4G为例)的3/4来配:

    hadoop-env.sh文件中配置:HADOOP_NAMENODE_OPTS=-Xmx3072m

  2. Hadoop3.x系列,hadoop-env.sh文件中说明了内存自动分配.

    通过命令 jmap -heap < jps查看到的进程的PID >可知NameNode和DataNode占用内存都是自动分配的,且相等。不是很合理。

    手动配置:hadoop-env.sh

    export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
    
    export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"
    

1.1.2 NameNode心跳并发

NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。

线程数dfs.namenode.handler.count默认是10,按企业经验hdfs-site.xml中该值设为img

1.1.3 开启回收站

将删除的文件在不超时的情况下恢复,防止误删

  1. 修改core-site.xml中回收时间fs.trash.interval值为60,以及检查间隔fs.trash.checkpoint.interval值为小于回收时间
  2. 查看回收站:HDFS中路径:/user/用户名/.Trash/…
  3. web端删除不经过回收站,或者通过程序删除只有使用moveToTrash()才走回收站,此外shell操作命令使用hadoop fs -rm才走回收站
  4. 恢复数据的话将回收站路径下文件移动即可

1.2 集群压测

考虑到Java后台拉取的数据用多久能上传到集群,以及从HDFS上拉取数据的时间,因此对集群压测以测出HDFS的读写性能

说明:HDFS的读写性能主要受限于网络和磁盘.

1.2.1 写性能测试

前提:设置集群网速为100Mbps单位是bit;换算后为12.5M/s

测试步骤:

  1. yarn-site.xml中设置关闭虚拟内存检测(避免centos和jdk的不兼容),分发

  2. 向HDFS写10个128M的文件(文件数>两个节点总核数就行,保证每个节点都有任务)

    命令:hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

结果分析:

  1. 忽略客户端所在节点的本地副本,参与测试的一共20个文件写入集群
  2. 压测后的速度(单个文件的写速度):1.61
  3. 实测速度:1.61*20=32M/s
  4. 三台服务器带宽:12.5*3略大于实测速度

结论:说明所有网络资源已用满,因此写速度主要受限于网络传输速度

1.2.2 读性能测试

  1. 将上面10个文件读取:

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

  2. 测试完毕,收尾,删除测试数据

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

观察到读取结果远大于网络带宽

结论:

测试节点存在文件副本,就近读取,读的本地磁盘,没经过网络,读速度不受网络限制,只受磁盘读写速度限制.

1.3 多目录

1.3.1 NameNode多目录配置

NN本地目录配置为多个,每个目录存放内容相同

说明:备份了nn,提高了可靠性,但不是高可用,nn所在节点挂掉集群仍无法工作

步骤:

  1. hdfs-site.xml中添加内容,将dfs.namenode.name.dir修改为两个目录
  2. 停止集群,删除所有节点的date和logs中数据
  3. 格式化nn后启
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值