本篇文章将结合一个实例来看看Mapper/Reducer代码构建思路
Last.fm是一个音乐社区网站,需要根据用户的收听记录生成不同种类的歌曲榜单,用户数据主要有以下两个来源:
l 用户在自己设备上播放的音乐(称为scrobble)
l 用户在Last.fm网站的广播电台在线收听(radio),用户可以选择跳过(skip)
数据提交到Last.fm后,经过验证和转换,最后存储为一行空格分隔的文本,像以下的格式:
| UserId |
TrackId |
Scrobble |
Radio |
Skip |
| 15 |
22 |
0 |
1 |
0 |
| 13 |
25 |
1 |
0 |

本文通过实例介绍如何使用MapReduce处理Last.fm的歌曲数据,包括统计歌曲的不同听众人数和各种收听次数。Mapper处理输入数据,Reducer进行聚合计算,通过多个Job协同完成复杂统计任务。
最低0.47元/天 解锁文章
2273

被折叠的 条评论
为什么被折叠?



