MapReduce实战:统计手机号耗费的总上行流量和下行流量

本文介绍了一种使用Hadoop进行大规模手机流量数据统计的方法。通过MapReduce编程模型,实现了对每个手机号的上行流量、下行流量及总流量的精确统计。文章详细阐述了数据输入格式、Map和Reduce阶段的处理流程,以及自定义Bean类和驱动程序的设计。
1.需求:
  • 统计每一个手机号耗费的总上行流量、下行流量、总流量
2.数据准备:
(1)输入数据格式:
时间戳、电话号码、基站的物理地址、访问网址的ip、网站域名、数据包、接包数、上行/传流量、下行/载流量、响应码

输入的数据

(2)最终输出的数据格式:
手机号码		上行流量        下行流量		总流量

输出的数据

3.分析:

基本思路:

(1)Map阶段:
  • (a)读取一行数据,切分字段
  • (b)抽取手机号、上行流量、下行流量
  • ©以手机号为key,bean对象为value输出,即context.write(手机号,bean);
(2)Reduce阶段:
  • (a)累加上行流量和下行流量得到总流量。
  • (b)实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输
  • ©MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key

所以,我们如果要实现自己需要的排序规则,则可以考虑将排序因素放到key中,让key实现接口:WritableComparable。
然后重写key的compareTo方法。

4.程序代码:
(1)编写流量统计的bean对象FlowBean

FlowBean.java

package phoneData;

import lombok.Getter;
import lombok.Setter;
import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

// 1 实现writable接口
@Setter
@Getter
public class FlowBean implements Writable {
   
   
    //上传流量
    private long upFlow;
    //下载流量
    private long downFlow;
    //流量总和
    private long sumFlow;

    //必须要有,反序列化要调用空参构造器
    public FlowBean() {
   
   
    }

    public FlowBean(long upFlow, long downFlow) {
   
   
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }

    public void set(long upFlow, long downFlow){
   
   
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值