Hadoop案例之单表关联输出祖孙关系


1.案例描述

实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。

   样例输入如下所示。

file

child       parent

Tom       Lucy

Tom       Jack

Jone       Lucy

Jone       Jack

Lucy       Mary

Lucy       Ben

Jack       Alice

Jack       Jesse

Terry       Alice

Terry       Jesse

Philip       Terry

Philip       Alma

Mark       Terry

Mark       Alma

 

   家族树状关系谱:

 

 

1 家族谱

    样例输出如下所示。

file

grandchild       grandparent

Tom           Alice

Tom           Jesse

Jone           Alice

Jone            Jesse

Tom           Mary

Tom           Ben

Jone            Mary

Jone            Ben

Philip            Alice

Philip           Jesse

Mark            Alice

Mark            Jesse

 

 

 

2. 案例分析

分析这个实例,显然需要进行单表连接,连接的是左表parent列和右表child列,且左表右表同一个表

  连接结果除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现自连接其次就是连接列设置最后结果整理

     考虑到MapReduceshuffle过程会将相同的key会连接在一起,所以可以将map结果的key设置成待连接,然后列中相同的值就自然会连接在一起了。再与最开始的分析联系起来:

  要连接的是左表的parent列和右表的child列,且左表和右表是同一个表,所以在map阶段读入数据分割childparent之后,会将parent设置成keychild设置成value进行输出,并作为左表再将同一对childparent中的child设置成keyparent设置成value进行输出,作为右表。为了区分输出中的左右表,需要在输出的value加上左右表信息,比如

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值