Hadoop生成调优点
1.HDFS--核心参数
NameNode内存生成配置
NameNode心跳并发配置
开启回收站配置
2.HDFS集群压测
测试HDFS写性能 向 HDFS 集群写 10 个 128M 的文件
测试HDFS读性能
3.HDFS多目录
NameNode多目录配置
DataNode多目录配置
集群数据均衡之磁盘间数据均衡
4.HDFS击取扩容及缩容
1.添加白名单
2.服务新服务器
3.服务器间数据均衡
4.黑名单退役服务器
5.HDFS-存储优化
1.纠删码策略 HDFS默认三个副本,采用就纠删码可以节省50%左右的存储空间
2.异构存储(冷热数据分离)--不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题
3.HOT存储策略--默认存储策略为HOT
4.WARM存储策略--数据降温warm
5.COLD策略测试--数据降温cold
6.ONE_SSD策略测试
7.ALL_SSD策略测试
8.LAZY_PERSISIT策略测试
6.HDFS故障排除
1.NameNode故障处理
2.集群安全模式&磁盘修复
3.慢磁盘监控
4.小文件归档
7.HDFS集群迁移
distcp
8.MapReduce生成经验
1.mapReduce跑的慢的原因 ---CPU、内存、磁盘和网络、IO操作优化
2.MapReduce常用调优参数 ---自定义分区、减少溢写的次数、增加每次merge合并次数4.提取combine\采用Snappy和LZO压缩、maptask内存上线1G
mapTask堆内存大小
maptask的CPU核数
异常重试
map拉取数据的并行数默认5,拉到7
buffer大小占比默认0.7
buff数据达到多少比列开始写入磁盘默认值0.66,可以提高到0.75
ReduceTask内存上限1024MB,适当提供内存4-6G
控制ReduceTask堆内存大小
3.mapreduce数据倾斜问题
1.检查是否空值太多造成的数据倾斜
2.能在map阶段提前处理,最好先在Map阶段
3.设置多个reduce个数
9.Hadoop-Yarn生成经验
1.调优参数列表
Resourecemanager 处理调度器请求的线程数量 配置调度器
NodeManager使用内存数、NodeManager为系统保留多少内存,核上一个参数二者取一即可
cpu核数、虚拟核数当作CPU核数、虚拟核数核物理核数乘数、是否让yarn自己检查硬件进行配置、是否开启物理内存加检查限制、是否开启虚拟内存限制、虚拟内存物理内存比列
Container容器相关
容器最小内存
容器最大内存
容器最小核数
容器最大核数
2.容量调度器
3.公平调度器
10.Hadoop综合调优
1.Hadoop小文件优化方法
2.测试MapReduce计算性能
3.企业开发场景案例
1.HDFS参数调优
2.MapReduce参数调优
3.Yarn参数调优