MapReduce实战：统计手机号耗费的总上行流量和下行流量

最新推荐文章于 2024-04-05 19:19:37 发布

原创

最新推荐文章于 2024-04-05 19:19:37 发布 · 3.9k 阅读

30 ·

CC 4.0 BY-SA版权

本文介绍了一种使用Hadoop进行大规模手机流量数据统计的方法。通过MapReduce编程模型，实现了对每个手机号的上行流量、下行流量及总流量的精确统计。文章详细阐述了数据输入格式、Map和Reduce阶段的处理流程，以及自定义Bean类和驱动程序的设计。

1.需求：

统计每一个手机号耗费的总上行流量、下行流量、总流量

2.数据准备：

(1)输入数据格式：

时间戳、电话号码、基站的物理地址、访问网址的ip、网站域名、数据包、接包数、上行/传流量、下行/载流量、响应码

输入的数据

(2)最终输出的数据格式：

手机号码		上行流量        下行流量		总流量

输出的数据

3.分析：

基本思路：

(1)Map阶段：

(a)读取一行数据，切分字段
(b)抽取手机号、上行流量、下行流量

(2)Reduce阶段：

(a)累加上行流量和下行流量得到总流量。
(b)实现自定义的bean来封装流量信息，并将bean作为map输出的key来传输

所以，我们如果要实现自己需要的排序规则，则可以考虑将排序因素放到key中，让key实现接口：WritableComparable。
然后重写key的compareTo方法。

4.程序代码：

(1)编写流量统计的bean对象FlowBean

FlowBean.java

package phoneData;

import lombok.Getter;
import lombok.Setter;
import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

// 1 实现writable接口
@Setter
@Getter
public class FlowBean implements Writable {
   
   
    //上传流量
    private long upFlow;
    //下载流量
    private long downFlow;
    //流量总和
    private long sumFlow;

    //必须要有，反序列化要调用空参构造器
    public FlowBean() {
   
   
    }

    public FlowBean(long upFlow, long downFlow) {
   
   
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }

    public void set(long upFlow, long downFlow){
   
   
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow

最低0.47元/天解锁文章