hadoop常见算法(持续更新)

本文通过具体案例介绍了Hadoop在处理财务数据时的应用,包括排序、倒排索引、ETL处理等,并进一步探讨了Partition的使用、双下标排序等高级话题。此外,还涉及了如何利用MapReduce求解最大值、计数器、k-means聚类算法等关键技术。

 

1. 对以下数据进行排序,根据收入减去支出得到最后结余从大到小排序

账号                 收入    支出    日期
zhangsan@163.com    6000    0      2014-02-20
lisi@163.com        2000    0      2014-02-20
lisi@163.com        0       100    2014-02-20
zhangsan@163.com    3000    0      2014-02-20
wangwu@126.com      9000    0      2014-02-20
wangwu@126.com      0       200    2014-02-20

最后结果形式为:

lisi@163.com        2000    100    1900
wangwu@126.com      9000    200    8800
zhangsan@163.com    9000    0      9000

 

2. 倒排索引、ETL、过滤 (文本查找),解析和校验

 

 

3. Partition的使用

 

 

4. 双下标排序

 

5. 利用MapReduce求解海量数据文件中的最大值

 

 

6. 计数器

 

7. k-means聚类算法

 

 

8. 计数与求和

 

 

 

 

References:

[1] hadoop常用算法简单实例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值