
Hadoop笔记(7)_Hadoop生产调优
文章平均质量分 78
仅供个人学习参考
TryBest_
与bug奋战到底!又不懂的问题的可以私信我噢,有问必答!
展开
-
第8章、MapReduce 生产经验
8.1 MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘、网络2)I/O 操作优化(1)数据倾斜(2)Map 运行时间太长,导致 Reduce 等待过久(3)小文件过多8.2 MapReduce 常用调优参数8.2.1 Map阶段调优1)自定义分区,减少数据倾斜;定义类,继承Partitioner接口,重写getPartition方法2)减少溢写的次数mapreduce.task.io.sort.mbShuffle的环原创 2022-05-25 11:09:15 · 450 阅读 · 0 评论 -
第10章、Hadoop综合调优
10.1 Hadoop 小文件优化方法10.1.1 Hadoop 小文件弊端HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行 MR 计算时,会生成过多切片,需要启动过多的 MapTask。每个MapTask 处理的数据量小,导致 MapTask 的处理时间比启动时间还小,白白消耗资源。原创 2022-05-25 11:12:42 · 561 阅读 · 0 评论 -
第7章、HDFS_集群迁移
7.1 Apache 和 Apache 集群间数据拷贝1)scp命令实现两个远程主机之间的文件复制// 推 pushscp -r hello.txt pcz@hadoop1:/user/pcz/hello.txt // 拉 pullscp -r pcz@hadoop1:/user/pcz/hello.txt hello.txt //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间 ssh 没有配置的情况下可以使用该方式。scp -r pcz@hadooop1:/user/原创 2022-05-25 11:03:50 · 291 阅读 · 0 评论 -
第6章、HDFS_故障排除
注意:采用三台服务器即可,恢复到 Yarn 开始的服务器快照。6.1 NameNode 故障处理1)需求:NameNode 进程挂了并且存储的数据也丢失了,如何恢复 NameNode2)故障模拟查询并杀死NameNode进程[pcz@hadoop1 current]$ kill -9 19886(2)删除 NameNode 存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/name)[pcz@hadoop1 hadoop-3.1.3]$ rm -rf原创 2022-05-25 11:00:17 · 317 阅读 · 0 评论 -
第5章、HDFS_存储优化
注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量拿另外一套集群。提前准备 5 台服务器的集群。自行配置一台服务器,启动后查看是否工作5.1 纠删码5.1.1 纠删码原理HDFS 默认情况下,一个文件有 3 个副本,这样提高了数据的可靠性,但也带来了 2 倍的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约 50%左右的存储空间。该方式损耗的是计算性能,占用CPU的时间会比较长,这个设置需要根据实际情况修改,如果CPU计算资源充足,可通过该方式代替存储空间的不足1)原创 2022-05-25 10:43:21 · 293 阅读 · 0 评论 -
第4章、HDFS_集群的扩容和缩容
4.1 添加白名单白名单:表示在白名单的主机IP地址都可以访问集群,用来存储数据。企业中:配置白名单可以尽量防止黑客恶意访问攻击。配置白名单步骤如下1)在NameNode节点上的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist(白名单)和blacklist(黑名单)文件(1)创建白名单[pcz@hadoop1 hadoop]$ vim whitelisthadoop1 hadoop2(2)创建黑名单[pcz@hadoop1 had原创 2022-05-25 10:37:43 · 341 阅读 · 0 评论 -
第3章、HDFS_多目录
生产环境下集群搭建时就需配置,如果投入使用在配置,会造成一定的数据损失3.1、NameNode多目录配置1)NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性具体配置如下(1)在hdfs-site.xml文件中添加如下内容<property> <name>dfs.namenode.name.dir</name><value>file://${hadoop.tmp.dir}/dfs/name1,file://${h原创 2022-05-25 10:31:30 · 263 阅读 · 0 评论 -
第2章、HDFS_集群压测
HDFS的的读写性能主要受网络(写)和磁盘(读)的影响较大。100Mbps的单位是bit;10M/s的单位是byte,1byte=8bit,100Mbps/8=12.5M/s。测试网速:来到 hadoop102 的/opt/software 目录,创建一个[pcz@hadoop2 software]$ python -m SimpleHTTPServer然后浏览器输入hadoop2:8000即可查看和下载该目录下的文件2.1测试HDFS写性能0)写测试底层原理1)测试内容:向 HDFS 集原创 2022-05-25 10:29:18 · 195 阅读 · 0 评论 -
第1章、HDFS_核心参数
1.1 NameNode内存生产配置1)NameNode内存计算每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿G MB KB Byte2)Hadoop2.x系列,配置NameNode内存NameNode 内存默认 2000m,如果服务器内存 4G,NameNode 内存可以配置 3g。在hadoop-env.sh 文件中配置如下。HADOOP_原创 2022-05-25 10:26:22 · 257 阅读 · 0 评论