Hadoop MapReduce及相关工具的使用与特性
1. 启动MapReduce作业的配置
MapReduce应用程序有很多配置项,部分用于优化性能,部分是各组件的主机名或端口号。为提升应用性能,更改配置通常是有益的。虽然对于常规工作负载,使用默认值往往就足够了,但我们还是来看看如何为每个应用更改配置。
Hadoop提供了一个实用接口,可通过命令行设置配置值。该接口是 Tool ,它有一个可重写的运行方法。要使用 ToolRunner 运行MapReduce应用程序,这个接口是必需的,因为 ToolRunner 能够处理命令行参数和选项的解析。结合 Configured 类, ToolRunner 会根据命令行提供的配置自动设置配置对象。以下是使用 ToolRunner 实现的WordCount示例应用:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.li
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



