
MapReduce
C_time
BD
展开
-
Map端的Join map-side join
map-side join:(最为高效) 核心思想:将小表进行分布式缓存,在map-task阶段读取缓存文件数据存储到内存数据结构中,以供reduce阶段连接查找。 适用场景:有一个或者多个小表(文件) 优点:将小表缓存,可以高效查询;由于在map阶段进行连接,所以将会大大减小map到reduce端的数据传输,从而减少不必要的shuffle耗时,提高整个mr的执行效率 缺点:如果业务全是大表不适...原创 2019-09-04 19:53:15 · 1908 阅读 · 0 评论 -
使用MapReduce读取并统计本地MongoDB数据
有很多数据存在mongodb中,希望使用mr来去将数据分布式读取出来,并且统计,然后再将结果存储到mongo中。(其它mr支持不友好的数据库均可以自行定义) 现有如下数据: db.students.insert({name:"bingbing",age:16,sex:"F"}) db.students.insert({name:"zhiyin",sex:"M"}) db.students.inse...原创 2019-09-06 16:27:54 · 576 阅读 · 0 评论 -
MapReduce调优
1 资源相关参数 //以下参数是在用户自己的mr应用程序中配置在mapred-site.xml就可以生效 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上...原创 2019-09-06 21:53:06 · 214 阅读 · 0 评论 -
MapReduce计算求出每天访问的去重用户数、会员数、session数
1、求出每天访问的去重用户数、会员数、session数 数据样例 如下 实际大概500M左右 数据只是一天的数据 所以最后结果只有一条 链接:https://pan.baidu.com/s/15_8m-kn-_cYmmpNSsMcutA 提取码:wjhu 190.164.178.204 1531362217 www.qianfeng.com /?en=e_l&ver=0.0.1&p...原创 2019-09-07 21:44:23 · 1183 阅读 · 0 评论