企业经验---参数调优---尚硅谷

最新推荐文章于 2025-03-26 16:00:44 发布

weixin_52996387

最新推荐文章于 2025-03-26 16:00:44 发布

阅读量756

点赞数

文章标签： hadoop hdfs mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52996387/article/details/130791325

版权

一、HDFS-核心参数

1.1NameNode内存生产配置

1）NameNode内存计算

每个文件块大概占用150byte，一台服务器128G内存为例，能存多少文件快？

128*1024*1024*1024、150byte≈9.1亿

G kb mb byte

2）Hadoop2.x系列配置NameNode

namenode内存默认2000m，如果服务器内存4G，namenode内存可以配置3G 在hadoop.env.sh中配置

HADOOP_NAMENODE_OPTS=-Xmx3072m

3）Hadoop3.x 配置Namenode

①hadoop-env.sh中描述Hadoop的内存是动态分配的

②查看NameNode占用内存 jmap -heap 7140

③查看DataNode占用内存jmap -heap 7259

NameNode：namenode最小值1G，每增加1000000个block，增加1G内存

DataNode：datanode最小值4G block数或者副本数升高，都应该调大datanode的值

一个datanode上的副本总数低于4000000调为4G 超过4000000每增加1000000 增加1G

具体修改hadoop-env.sh

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"

export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"

1.2NameNode心跳并发配置

1）hdfs-site.xml

<property>

<name>dfs.namenode.handler.count</name>

<value>21</value>

</property>

1.3开启回收站配置

1）回收站工作机制

检查回收站的间隔时间： fs.trash.checkpoint.interval=10

设置文件存货时间：fs.trash.interval=60

2)开启回收站功能参数说明

①默认值fs.trash.interval=0,0表示禁用回收站：其他值表示设置文件的存活时间

②默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等

③要求fs.trash.checkpoint.interval<=fs.trash.interval

3)启用回收站

修改core-site.xml 配置垃圾回收时间为1分钟

<property>

<name>fs.trash.interval</name>

<value>1</value>

</property>

4)查看回收站

回收站目录在HDFS集群中的路径：/usr/cyf/.Trash/...

5)通过网页上直接删除的文件不会进入回收站

6）通过程序删除的文件不会经过回收站，需调用moveToTrash（）才进入回收站

Trash trash = New Trash（conf）

trash.moveToTrash(path)

7)只有在命令行利用hadoop fs -rm 命令删除的文件才会走回收站

hadoop fs -rm -r /

二、HDFS-集群压测

HDFS的读写性能主要受网络和磁盘影响比较大，为了方便测试，将hadoop102、hadoop103、hadoop104虚拟机网络设置为100mpbs=12M/s

2.1测试HDFS写性能

0）写测试底层原理

1）测试内容：向HDFS集群写10个128M的文件

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.1-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

3）测试结果分析

（1）由于副本1就在本地所以该副本不参与测试

一共参与测试的文件： 10个文件*2个副本=20个

压测后的速度： 3.53

实测速度：3.53m/s * 20个文件≈71.6m/s

三台服务器的带宽：12.5+12.5+12.5≈30m/s

所有网络资源都已经用满

如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数

（2）如果客户端不在集群节点，那么三个副本都将参与计算

2.2测试HDFS读性能

1）测试内容：读取HDFS集群10个128m的文件

2）删除测试生成数据

3)测试结果分析：为什么读取文件速度大于网络带宽？

由于目前只有三台服务器，且有三个副本，数据读取就近原则，相当于都是读取的本地磁盘数据，没有网络影响

三、HDFS多目录

3.1NameNode多目录配置

1）NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性

2）具体配置

（1）在hdfs-site.xml文件中添加如下内容

<property>

<name>dfs.namenode.name.dir</name>

<value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>

</property>

3.2DataNode多目录配置

1）DataNode可以配置成多个目录，每个目录存储的数据不一样（数据不是副本）

2）具体配置如下：

在hdfs-site.xml文件

最低0.47元/天解锁文章

weixin_52996387

博客等级

码龄5年

9
原创

0
点赞

3
收藏

7
粉丝

关注

私信

热门文章

分类专栏

spark 1篇
二分查找、算法 2篇

展开全部收起

上一篇：: Hadoop之Yarn

下一篇：: Spark学习day1--sparkcore

最新评论

Spark快速大数据分析---二章（day01）
优快云-Ada助手: 恭喜您写完了第9篇博客！标题看起来非常有吸引力，我很期待阅读关于Spark快速大数据分析的内容。您的持续创作精神值得赞赏，对于大数据领域的探索和分享，您的努力肯定会得到回报。接下来，我建议您可以考虑加入更多实例和案例，以及对于每个章节的总结和复习，这将有助于读者更好地理解和应用所学知识。期待您的下一篇博客！
Spark学习day1--sparkcore
优快云-Ada助手: 恭喜您写了第8篇博客！标题“Spark学习day1--sparkcore”让我非常期待阅读您的文章。持续创作是一种难能可贵的品质，您的努力和坚持确实值得称赞。在下一步的创作中，我建议您可以探索一下Spark的其他组件或者深入研究Spark Core的更高级特性，这样能够进一步增加您博客的深度和广度。希望您能够保持谦虚的态度，继续分享您的学习心得和经验，让更多人受益。加油！
大数据技术Hadoop之HDFS
优快云-Ada助手: 非常感谢用户分享的关于Hadoop的博客，特别是关于HDFS的介绍，对我们学习大数据技术有很大的帮助。祝贺用户能够持续创作，分享更多的知识和经验。建议用户可以进一步深入探讨Hadoop生态圈中其他组件的使用和优化，让我们更好地了解和应用这个强大的开源框架。再次感谢用户的分享！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
企业经验---参数调优---尚硅谷
优快云-Ada助手: 恭喜您写了第7篇博客！看到您分享企业经验和参数调优的心得，我不禁想起我自己在这方面的不足之处。希望您能继续分享这方面的经验，特别是如何在尚硅谷这个领域不断学习和进步。期待您更多的精彩文章！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Hadoop之Yarn
优快云-Ada助手: 恭喜您撰写了第六篇博客，内容涉及到Hadoop之Yarn，这是一个非常有价值的主题。您的博客已经为读者提供了深入了解Yarn的机会，并且展示了您对这一技术的深入理解。接下来，我建议您可以继续探索Hadoop的其他方面，并分享您的见解和经验，以帮助更多人了解这一领域的知识。再次恭喜您，期待您的下一篇博客！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。