
Map Reduce
文章平均质量分 66
大明湖里有蛤蟆
做一个磁石
展开
-
一目了然的几种join方式举例
inner join,left outer join,right outer join,antijoin,cartesian product原创 2015-06-09 10:47:48 · 808 阅读 · 0 评论 -
MapReduce的Reduce side Join
reduce side join是所有join中用时最长的一种join,但是这种方法能够适用内连接、left外连接、right外连接、full外连接和反连接等所有的join方式。reduce side join不仅可以对小数据进行join,也可以对大数据进行join,但是大数据会占用大量的集群内部网络IO,因为所有数据最终要写入到reduce端进行join。如果要做join的数据量非常大的话,就不得不用reduce join了。原创 2015-06-10 10:03:39 · 1497 阅读 · 0 评论 -
hadoop常用的压缩算法总结和实验验证
hadoop常用压缩算法性能总结,包括snappy、gzip、bzip2、LZ4、LZO、deflate等算法原创 2015-08-24 23:13:39 · 2651 阅读 · 0 评论 -
MapReduce的Map side join
当有一个大表join小表的时候,可以选择用Map side join。该方式只用到了map阶段,不需要reduce。适用场景:1-小表很小,可以放在内存中,不会导致JVM的堆溢出;2-内连接或者大数据在左边的左外连接。原创 2015-06-10 14:33:49 · 1056 阅读 · 0 评论