第1关:MapReduce的编程开发-输出格式整理
任务描述
本关任务:使用 MapRedce 对员工按照部门编号的方式进行分区。
相关知识
为了完成本关任务,你需要掌握:1.如何获取数组的长度,2.如何遍历数组。
OutputFormat及其子类
OutputFormat类
本类主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入特定格式的文件中。主要涉及以下两个方法:
RecordWriter<K, V> getRecordWriter(TaskAttemptContext var1):根据TaskAttemptContext(map及reduce函数的参数Context对象间接继承自该类)对象中的相关信息返回一个RecordWriter()对象(包含一个键值对数据)。后者负责键值对的写入操作。
void checkOutputSpecs(JobContext var1):用于检测作业输出规范有效性。比如FileOutputFormat中输出路径未设置、输出路径已存在时会抛出异常。该方法通常会在任务初始化阶段被调用。
OutputCommitter getOutputCommitter(TaskAttemptContext var1):方法来负责确保输出被正确提交。
FileOutputFormat类
所有写入到文件系统的类都继