常用的Hadoop Common组件属性分享

最新推荐文章于 2025-10-25 09:05:00 发布

原创最新推荐文章于 2025-10-25 09:05:00 发布 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

Hadoop 专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍Hadoop集群配置文件core-site.xml、hdfs-site.xml及mapred-site.xml的关键参数及其意义，帮助读者理解如何正确配置Hadoop环境。

常用的hadoop配置文件笔记

一..core-site.xml

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

<name>fs.checkpoint.dir</name>

<value>/opt/data/hadoop/hdfs/namesecondary</value>

</property>

<name>fs.checkpoint.period</name>

</property>

<name>fs.checkpoint.size</name>

</property>

<name>io.compression.codecs</name>

<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

<name>fs.trash.interval</name>

</property>

二.. hdfs-site.xml

<value>/opt/local/hadoop/hdfs/name,/home/hadoop/hdfs/name,/nfs/name</value>

</property>

<value>/opt/local/hadoop/hdfs/data,/home/hadoop/hdfs/data</value>

</property>

<name>dfs.http.address</name>

<value>master:50070</value>

</property>

<name>dfs.secondary.http.address</name>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.datanode.du.reserved</name>

</property>

<!--每个卷预留的空间数量,单位 bytes(上述配置表示datanode 写磁盘会预留 1G空间给其他程序使用)->

<name>dfs.block.size</name>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

三 mapred-site.xml

<name>mapred.job.tracker</name>

<value>master:9001</value>

</property>

<name>mapred.local.dir</name>

<value>/opt/local/hadoop/mapred/mrlocal</value>

</property>

<name>mapred.system.dir</name>

<value>/opt/local/hadoop/mapred/mrsystem</value>

</property>

<name>mapred.tasktracker.map.tasks.maximum</name>

</property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

</property>

</property>

<name>mapred.child.java.opts</name>

</property>

<name>mapred.compress.map.output</name>

</property>

下面是网上看到的详细资料....记录下来,以备以后查询

hadoop-env.sh
name	value		含义
JAVA_HOME	/usr/java/jdk1.6.0_30		JDK所在路径
JAVA_LIBRARY_PATH	/opt/hadoopgpl/native/Linux-amd64-64:/opt/modules/hadoop/hadoop-0.20.203.0/lib/native/Linux-amd64-64		Lzo,Snappy,gzip 等压缩算法库地址
HADOOP_HEAPSIZE	26000		最大 HEAPSIZE 大小,默认 1000M
core-site.xml
Name	value		含义
fs.default.name	hdfs://hadoopmaster:9000		指定默认的文件系统，默认端口 8020。
fs.checkpoint.dir	/data1/hdfs/secondarynamenode,/data2/hdfs/secondarynamenode		辅助NameNode检查点存储目录，分别存储到各个目录，支持冗余备份。
fs.checkpoint.period	1800		editlog和fsimage,合并触发周期30分钟。
fs.checkpoint.size	33554432		editlog和fsimage,合并触发日志大小32M。
fs.trash.interval	1440		文件清理周期 24小时
io.compression.codecs	org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec		压缩类库
io.compression.codec.lzo.class	com.hadoop.compression.lzo.LzoCodec		LZO 编码类
io.file.buffer.size	65536		指定缓冲区的大小，默认4K太小，64k(65536)或128k(131072)更为常用
topology.script.file.name	/opt/modules/hadoop/hadoop-0.20.203.0/conf/RackAware.py		配置机架感知的代码

hdfs-site.xml
Name	Value		含义
dfs.name.dir	/data1/hadoop/hdfs/name,/data2/hadoop/hdfs/name,/nfs/hadoop/hdfs/name		NameNode上持久化存储元数据和事务日志的路径。指定多个目录的话，各个目录内容完全一致。使用NFS在加载一个远程目录,以便后续主机宕机,快速恢复。
dfs.data.dir	/data1/hadoop/hdfs/data /data2/hadoop/hdfs/data,/data3/hadoop/hdfs/data		DataNode上存储数据块的地方。如果指定多个目录，则数据库被随机的存放。
dfs.http.address	hadoopmaster:50070		HDFS 管理界面
dfs.secondary.http.address	hadoopslave:50090		secondary namenode http 地址
dfs.replication	整数		数据复制的份数
dfs.datanode.du.reserved	1073741824		预留文件数量
dfs.block.size	134217728		HDFS 文件块大小,默认128M
dfs.datanode.max.xcievers	4096		datanode同时打开的文件上限。默认256太小。
dfs.permissions	FALSE		默认是 true，则打开前文所述的权限系统。如果是 false，权限检查就是关闭的
dfs.support.append	FALSE		支持文件append，主要是支持hbase

mapred-size.xml
Name	Value		说明
mapred.job.tracker	hadoopmaster:9001		Jobtracker的RPC服务器所在的主机名称和端口。
mapred.local.dir	/data1/hadoop/mapred/mrlocal,/data2/hadoop/mapred/mrlocal		存储作业中间数据的目录列表，作业结束后，数据被清楚
mapred.system.dir	/data1/hadoop/mapred/mrsystem		作业运行期间的存储共享目录的目录，必须是HDFS之上的目录
mapred.task.tracker.map.tasks.maximum	12		运行在tasktracker之上的最大map任务数
mapred.task.tracker.reduce.tasks.maximum	4		运行在tasktracker之上的最大reduce任务数 (MAP+RED=CPU核心*2) (Map/Red=4/1)
mapred.child.java.opts	-Xmx1536M		JVM选项，默认 -Xmx200m
mapred.compress.map.output	true		Map输出后压缩传输,可以缩短文件传输时间
mapred.map.output.compression.codec	com.hadoop.compression.lzo.LzoCodec		使用Lzo库作为压缩算法
mapred.child.java.opts	-Djava.library.path=/opt/hadoopgpl/native/Linux-amd64-64		加载Lzo 库
mapred.jobtracker.taskScheduler	org.apache.hadoop.mapred.CapacityTaskScheduler		使用能力调度器
mapred.queue.names	default,HIVE,ETL		配置能力调度器队列
fs.inmemory.size.mb	300		为reduce阶段合并map输出所需的内存文件系统分配更多的内存
io.sort.mb	300		reduce 排序时的内存上限
mapred.jobtracker.restart.recover	true		默认:false
mapred.reduce.parallel.copies	10		默认:5 ,reduce 并行 copy的线程数

masters
Value		说明
hadoopslave		SecondaryNameNode HostName地址

slaves
Value		说明
datanode1		DataNode TaskTracker HostName 地址列表