Hadoop常用参数

最新推荐文章于 2022-07-10 11:58:33 发布

夜色如墨

最新推荐文章于 2022-07-10 11:58:33 发布

阅读量375

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/yeserumo/article/details/108146343

版权

大数据专栏收录该内容

11 篇文章

订阅专栏

                    
                        
                    
                    配置所在文件参数参数默认值作用
hdfs-site.xmldfs.namenode.support.allow.formattrue表示设置NameNode是否允许被格式化。 在生产系统，把它设置为false，阻止任何格式化操作在一个运行的DFS上。 建议初次格式化后，修改配置禁止，改成false
hdfs-site.xmldfs.heartbeat.interval3DataNode的心跳间隔，默认单位为秒 在集群网络通信状态不好的时候，适当调大
hdfs-site.xmldfs.blocksize134217728块大小，默认是128MB 必须得是1024(page size)的整数倍
hdfs-site.xmldfs.namenode.checkpoint.period 或者： fs.checkpoint.period3600edits和fsimage文件合并周期阈值，默认单位为s
hdfs-site.xmldfs.stream-buffer-size4096文件流缓存大小。需要是硬件page大小的整数倍。在读写操作时，数据缓存大小。 注意：是1024的整数倍 注意和core-default.xml中指定文件类型的缓存是不同的，这个是dfs共用的
mapred-site.xmlmapreduce.task.io.sort.mb100任务内部排序缓冲区大小，默认单位是MB 此参数调大，能够减少Spil溢写次数，减少磁盘I/O 建议：250MB~400MB
mapred-site.xmlmapreduce.map.sort.spill.percent0.8Map阶段溢写文件的阈值。不建议修改此值
mapred-site.xmlmapreduce.reduce.shuffle.parallelcopies5ReduceTask 启动的并发拷贝数据的线程数（fetch线程数） 建议，尽可能等于或接近于Map任务数量，达到并行抓取的效果
mapred-site.xmlmapreduce.job.reduce.slowstart.completedmaps0.05当Map任务数量完成率在5%时，Reduce任务启动，这个参数建议不要轻易改动，如果Map任务总量非常大时，可以将此参数调低，让reduce更早开始工作。
mapred-site.xmlio.sort.factor10文件合并（Merge）因子，如果文件数量太多，可以适当调大，从而减少I/O次数
mapred-site.xmlmapred.compress.map.outputfalse是否对Map的输出结果文件进行压缩，默认是不压缩。但是如果Map的结果文件很大，可以开启压缩，在Reduce的远程拷贝阶段可以节省网络带宽。
mapred-site.xmlmapred.map.tasks.speculative.executiontrue启动map任务的推测执行机制 推测执行是Hadoop对“拖后腿”的任务的一种优化机制，当一个作业的某些任务运行速度明显慢于同作业的其他任务时，Hadoop会在另一个节点上为“慢任务”启动一个备份任务，这样两个任务同时处理一份数据，而Hadoop最终会将优先完成的那个任务的结果作为最终结果，并将另一个任务杀掉。 启动推测执行机制的目的是更快的完成job， 但是在集群计算资源紧张时，比如同时在运行很多个job，启动推测机制可能会带来相反效果。如果是这样，就改成false。 对于这个参数的控制，轻易不要改动。
mapred-site.xmlmapred.reduce.tasks.speculative.executiontrue启动reduce任务的推测执行机制

                

配置所在文件	参数	参数默认值	作用
hdfs-site.xml	dfs.namenode.support.allow.format	true	表示设置NameNode是否允许被格式化。在生产系统，把它设置为false，阻止任何格式化操作在一个运行的DFS上。建议初次格式化后，修改配置禁止，改成false
hdfs-site.xml	dfs.heartbeat.interval	3	DataNode的心跳间隔，默认单位为秒在集群网络通信状态不好的时候，适当调大
hdfs-site.xml	dfs.blocksize	134217728	块大小，默认是128MB 必须得是1024(page size)的整数倍
hdfs-site.xml	dfs.namenode.checkpoint.period 或者： fs.checkpoint.period	3600	edits和fsimage文件合并周期阈值，默认单位为s
hdfs-site.xml	dfs.stream-buffer-size	4096	文件流缓存大小。需要是硬件page大小的整数倍。在读写操作时，数据缓存大小。注意：是1024的整数倍注意和core-default.xml中指定文件类型的缓存是不同的，这个是dfs共用的
mapred-site.xml	mapreduce.task.io.sort.mb	100	任务内部排序缓冲区大小，默认单位是MB 此参数调大，能够减少Spil溢写次数，减少磁盘I/O 建议：250MB~400MB
mapred-site.xml	mapreduce.map.sort.spill.percent	0.8	Map阶段溢写文件的阈值。不建议修改此值
mapred-site.xml	mapreduce.reduce.shuffle.parallelcopies	5	ReduceTask 启动的并发拷贝数据的线程数（fetch线程数）建议，尽可能等于或接近于Map任务数量，达到并行抓取的效果
mapred-site.xml	mapreduce.job.reduce.slowstart.completedmaps	0.05	当Map任务数量完成率在5%时，Reduce任务启动，这个参数建议不要轻易改动，如果Map任务总量非常大时，可以将此参数调低，让reduce更早开始工作。
mapred-site.xml	io.sort.factor	10	文件合并（Merge）因子，如果文件数量太多，可以适当调大，从而减少I/O次数
mapred-site.xml	mapred.compress.map.output	false	是否对Map的输出结果文件进行压缩，默认是不压缩。但是如果Map的结果文件很大，可以开启压缩，在Reduce的远程拷贝阶段可以节省网络带宽。
mapred-site.xml	mapred.map.tasks.speculative.execution	true	启动map任务的推测执行机制推测执行是Hadoop对“拖后腿”的任务的一种优化机制，当一个作业的某些任务运行速度明显慢于同作业的其他任务时，Hadoop会在另一个节点上为“慢任务”启动一个备份任务，这样两个任务同时处理一份数据，而Hadoop最终会将优先完成的那个任务的结果作为最终结果，并将另一个任务杀掉。启动推测执行机制的目的是更快的完成job，但是在集群计算资源紧张时，比如同时在运行很多个job，启动推测机制可能会带来相反效果。如果是这样，就改成false。对于这个参数的控制，轻易不要改动。
mapred-site.xml	mapred.reduce.tasks.speculative.execution	true	启动reduce任务的推测执行机制