MR实战：网址去重

酒城译痴无心剑

已于 2025-01-08 17:22:57 修改

阅读量1.2k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：探索大数据-从Hadoop到Flink 文章标签： mr 网址去重

于 2024-01-05 22:02:38 首次发布

本文链接：https://blog.youkuaiyun.com/howard2005/article/details/135418249

236 篇文章 ¥19.90 ¥99.00

订阅专栏

本文详细描述了一个使用HadoopMapReduce框架对多个文本文件中的IP地址进行去重的实战项目，包括数据准备、Maven项目配置、自定义Mapper和Reducer类的实现，以及最终驱动程序的运行和结果输出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、实战概述

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先，在虚拟机上创建了三个包含IP地址列表的文本文件（ips01.txt、ips02.txt、ips03.txt），并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。
接着，通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs，并添加了hadoop-client和junit相关依赖。在项目中定义了三个关键类：DeduplicateIPsMapper、DeduplicateIPsReducer和DeduplicateIPsDriver。
DeduplicateIPsMapper类作为Map阶段的处理单元，读取每行输入文本数据（表示一个IP地址），将IP地址作为新的键输出，并使用NullWritable类型的空值，以准备后续去重操作。
DeduplicateIPsReducer类则负责Reduce阶段的逻辑，它接收Mapper阶段输出的所有具有相同IP地址的键值对，并通过不遍历值迭代器的方式实现键（即IP地址）的去重，确保每个唯一IP地址仅被写入一次。
最后，DeduplicateIPsDriver类作为整个任务的驱动程序，负责配置和启动MapReduce作业。它设置了作业的输入与输出路径、Mapper和Reducer类，以及它们的键值类型。作业完成后，该类会遍历输出目录下的文件，读取并打印去重后的IP地址列表到控制台。
<