hadoop核心配置文件:
1,环境变量相关:
主要关注daemon进行的堆内存大小
hadoop-env.sh:
JAVA_HOME
HADOOP_CONF_DIR
HADOOP_HEAPSIZE:影响客户端启动内存大小等
HADOOP_NAMENODE_OPTS/HADOOP_DAATANODE_OPTS/HADOOP_JOURNALNODE_OPTS/HADOOP_SECONDARYNAMENODE_OPTS等:设置角色启动相关参数。
HADOOP_LOG_DIR
yarn-env.sh:
JAVA_HOME
YARN_CONF_DIR
YARN_HEAPSIZE
YARN_RESOURCEMANAGER_HEAPSIZE
YARN_NODEMANAGER_HEAPSIZE/YANR_RESOURCEMANAGER_OPTS
YARN_NODEMANAGER_HEADPSIZE/YARN_NODEMANAGER_OPTS
2,系统相关
core-site.xml:整个hadoop集群最基础的一些配置,便横影响所有上层应用:HDFS、YARN、MR、Spark等
hdfs-site.xml:只与HDFS文件系统相关的一些配置
yarn-site.xml:只与yarn相关的一些配置
mapred-site.xml:只与MR相关的一些配置
3,输出日志相关
log4j.proerties
4,监控相关
hadoop-metrics2.properties
优化关注的方向:
1,内存:
NameNode:决定了能够容纳的文件数和block数。换算公式 ==> 1G=100万 block
DataNode:影响处理性能
Client:影响客户端处理能力。
ResourceManager:影响调度能力
NodeManager:影响处理性能
1,NameNode 堆内存大小: 1G = 100万block
2,