Hadoop常用参数

配置所在文件参数参数默认值作用
hdfs-site.xmldfs.namenode.support.allow.formattrue表示设置NameNode是否允许被格式化。 在生产系统,把它设置为false,阻止任何格式化操作在一个运行的DFS上。 建议初次格式化后,修改配置禁止,改成false
hdfs-site.xmldfs.heartbeat.interval3DataNode的心跳间隔,默认单位为秒 在集群网络通信状态不好的时候,适当调大
hdfs-site.xmldfs.blocksize134217728块大小,默认是128MB 必须得是1024(page size)的整数倍
hdfs-site.xmldfs.namenode.checkpoint.period 或者: fs.checkpoint.period3600edits和fsimage文件合并周期阈值,默认单位为s
hdfs-site.xmldfs.stream-buffer-size4096文件流缓存大小。需要是硬件page大小的整数倍。在读写操作时,数据缓存大小。 注意:是1024的整数倍 注意和core-default.xml中指定文件类型的缓存是不同的,这个是dfs共用的
mapred-site.xmlmapreduce.task.io.sort.mb100任务内部排序缓冲区大小,默认单位是MB 此参数调大,能够减少Spil溢写次数,减少磁盘I/O 建议:250MB~400MB
mapred-site.xmlmapreduce.map.sort.spill.percent0.8Map阶段溢写文件的阈值。不建议修改此值
mapred-site.xmlmapreduce.reduce.shuffle.parallelcopies5ReduceTask 启动的并发拷贝数据的线程数(fetch线程数) 建议,尽可能等于或接近于Map任务数量,达到并行抓取的效果
mapred-site.xmlmapreduce.job.reduce.slowstart.completedmaps0.05当Map任务数量完成率在5%时,Reduce任务启动,这个参数建议不要轻易改动,如果Map任务总量非常大时,可以将此参数调低,让reduce更早开始工作。
mapred-site.xmlio.sort.factor10文件合并(Merge)因子,如果文件数量太多,可以适当调大,从而减少I/O次数
mapred-site.xmlmapred.compress.map.outputfalse是否对Map的输出结果文件进行压缩,默认是不压缩。但是如果Map的结果文件很大,可以开启压缩,在Reduce的远程拷贝阶段可以节省网络带宽。
mapred-site.xmlmapred.map.tasks.speculative.executiontrue启动map任务的推测执行机制 推测执行是Hadoop对“拖后腿”的任务的一种优化机制,当一个作业的某些任务运行速度明显慢于同作业的其他任务时,Hadoop会在另一个节点上为“慢任务”启动一个备份任务,这样两个任务同时处理一份数据,而Hadoop最终会将优先完成的那个任务的结果作为最终结果,并将另一个任务杀掉。 启动推测执行机制的目的是更快的完成job, 但是在集群计算资源紧张时,比如同时在运行很多个job,启动推测机制可能会带来相反效果。如果是这样,就改成false。 对于这个参数的控制,轻易不要改动。
mapred-site.xmlmapred.reduce.tasks.speculative.executiontrue启动reduce任务的推测执行机制
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜色如墨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值