Hadoop-Streaming 高级参数

本文详细探讨了Hadoop Streaming的高级参数配置,包括如何调整MapReduce任务的内存分配、输入输出格式设置以及错误处理策略等,旨在提升大数据处理效率和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

理解以下选项

-files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster:缓存文件到HDFS

-libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath.缓存jar包到classpath

-archives <comma separated list of archives>    specify comma separated archives to be unarchived on the compute machines.:缓存压缩包到classpath
-D mapred.reduce.tasks=10
-D mapred.map.tasks=200
设定reduce任务的数量

-D mapred.map.max.attempts
-D mapred.reduce.max.attempts

-D mapred.reduce.tasks.speculative.execution=true
-D mapred.map.tasks.speculative.execution=true
是否设定推测执行

-D mapred.tasks.timeout=600 
默认等待每个Map任务时间是10分钟,10分钟后没有反馈,任务任务失败,设置为0是表示关闭这个特性。
-D stream.map.input.ignoreKey=False : map过程中只产生value,节省IO

-D stream.map.input=rawbytes
-D stream.map.output=rawbytes
-D stream.reduce.input=rawbytes
-D stream.reduce.output=rawbytes

-D stream.tmpdir=/tmp/streaming :streaming :使用的临时目录

-D mapreduce.task.classpath.user.precedence=true :classpath的优先级,设定为用户自定义jar包优先
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值