
MapReduce
看得出的就是
种一棵树最好的时间是十年前,其次是现在!
不要给自己设限!
做自己!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce编程模型1 —— InputFormat简介
概述InputFormat描述了MapReduce Job的输入规范。Map-Reduce框架依赖作业的InputFormat完成如下工作:1.验证作业的输入规范;2.将输入文件拆分为逻辑 InputSplits,然后将每一个分片分配给一个独立的 Mapper;3.提供 RecordReader 的实现,用于从逻辑 InputSplit 中收集输入记录,供 Mapper...原创 2019-02-06 22:19:52 · 539 阅读 · 0 评论 -
MapReduce编程模型2——Mapper简介
概述Mapper用以将输入的K-V对映射为一组中间的K-V对。Maps是一些将输入记录转换为中间记录的单个的任务。转换后的中间记录的类型不需要和输入记录的类型相同。一个给定的输入K-V对可能会映射为0个或者多个输出对(output pair)。Hadoop 的 Map-Reduce框架会为Job的每个 InputSplit 产生一个map task,InputSplit是由 InputFo...原创 2019-02-06 22:23:35 · 524 阅读 · 0 评论 -
MapReduce编程模型3——Partitioner简介
概述Partitioner 控制着map中间数据的key的分区。键(或键的子集)用于产生分区,通常通过哈希函数。分区的总数是和reduce的任务相同,因此,这控制着中间的键(以及记录)发送到哪个 m reduce任务中进行reduce处理。注意:如果你需要 Partitioner 类来获取job 的configuration 对象,则需要实现 Configurable 接口。 抽象...原创 2019-02-06 22:26:15 · 277 阅读 · 0 评论 -
MapReduce编程模型4——Reducer简介
概述Reducer 用以将共享同一个 key 的一组中间值缩减为一组较小的值。(Reduces a set of intermediate values which share a key to a smaller set of values.)Reducer 的实现类可以通过 JobContext.getConfiguration() 方法来访问的Job的配置对象 Configurati...原创 2019-02-06 22:33:04 · 1128 阅读 · 0 评论 -
MapReduce编程模型5——OutputFormat简介
概述OutputFormat描述了 Map-Reduce 作业的输出规范。MapReduce 框架依赖 作业的OutputFormat 完成如下工作:1.验证作业的输出规范,比如检查输出目录是否已经存在;2.提供RecordWriter的实现,用以将作业的输出写入到文件中,输出文件存储在 FileSystem 中。 OutputFormatOutputFormat的定义...原创 2019-02-06 22:39:34 · 996 阅读 · 0 评论 -
MapReduce 新旧API对比
hadoop从0.20.0版本开始,Hadoop同时提供了新旧两套MapReduce API。新API在旧API基础上进行了封装,使得其在扩展性和易用性方面更好。新旧版MapReduce API的主要区别如下。(1)存放位置新API:org.apache.hadoop.mapreduce包旧API:org.apache.hadoop.mapred包(2)接口变为抽象类接口通...转载 2019-02-06 23:02:26 · 302 阅读 · 0 评论 -
MapReduce编程模型6——Writable、WritableComparable、RawComparator、WritableComparator
WritableWritable是一个可序列化的对象,它基于 DataInput和DataOutput实现了一个简单、高效的序列化协议。Hadoop Map-Reduce 框架中的任何Key或者Value类型都要实现这个接口。Writable接口的实现,通常都是要实现 read(DataInput) 静态方法,该静态方法将会构造一个新的实例,通过调用readFields(Data...原创 2019-03-02 13:48:49 · 726 阅读 · 0 评论