一 Sql转换mr过程
二 基本sql原则
三 map
四 join
五 reduce
一 Sql转换mr过程
这里借用一下美团技术文章:https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.html
二 基本sql原则
•
1:
尽量早的过滤数据(谓词下推
hive.optimize.ppd
、避免空值),同时列裁剪
hive.optimize.cp
。
•
2:
尽量原子操作,避免一个
sql
包含复杂的逻辑。(偏好价格层级案例)
•
3:join
操作,小表放在左边。
•
4:union all
的部分可以一次读取多次插入,或者设置参数
hive.exec.parallel.thread.number
=n
;
hive.exec.parallel=true
•
5:group by
和
count(distinct)
的使用场景。
Mapreduce
个数,
map
处理方式不同,
•
6:
尽量减少
map
、
join
。
•
7:join
之前对关联键进行
group by
检测,避免数据膨胀。
•
8:group by
有热点值