目录
一、Hive相关
二、Hadoop相关
2.1、基础问题
1)常用端口号
hadoop2.x Hadoop3.x
访问HDFS端口 50070 9870
访问MR执行情况端口 8088 8088
历史服务器 19888 19888
客户端访问集群端口 9000 8020
2)常用配置文件
hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves
hadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers
2.2、HDFS相关
1)小文件问题
1个文件块占用namenode内存150字节,128G的文件能存储128*1024**1024*1024/150字节=9.1亿个文件块。每个小文件都会启动一个MapTask,一个MapTask默认内存是1G,及其浪费资源。可以使用如下方式解决:
①使用har归档
②采用CombineTextInputFormat切片,多个文件放在一起切片,将众多的小文件从逻辑上划分为较少的切片,这样只需要启动较少的MapTask即可。
③有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置,通常在10-20之间。
<property>
<name>mapreduce.job.jvm.numtasks</name>
<value>