1. 实战概述
- 本次实战通过Hadoop MapReduce实现了IP地址的去重与统计。首先,使用Mapper读取IP地址并输出,Reducer进行去重操作。接着,扩展功能统计每个IP地址的访问次数,并按访问次数降序排列。通过自定义
IPBean
类和调整Reducer逻辑,解决了排序过程中重复次数相同的IP地址被删除的问题。最终,成功输出去重后的IP地址及其访问次数,并按访问次数降序排列。
2. 提出任务
2.1 原始问题
- 某人今天访问了许多不同的网站,移动或电信日志会记录每次访问的详细信息。有些网站被频繁访问,而有些则访问次数较少。为了分析该用户的访问行为,需要统计他今天访问了多少个不同的网站。通过处理日志数据,去除重复的网站记录,可以准确计算出他访问的唯一网站数量。这一过程不仅有助于了解用户的浏览习惯,还能为网络优化和个性化推荐提供数据支持。
2.2 简单化处理
- 假如有如下一些IP地址,如何去掉重复地址?
192.168