Hive SQL使用经验总结

最新推荐文章于 2022-11-09 14:22:18 发布

原创最新推荐文章于 2022-11-09 14:22:18 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sql

大数据专栏收录该内容

80 篇文章

订阅专栏

本文探讨了Hive和MySQL在正则匹配、连接查询、去重、视图创建以及性能调优等方面的不同。在Hive中，进行字符串匹配时需考虑Unicode编码，不支持非等值ON条件，但可以通过WHERE子句实现。GROUP BY用于去重时，Hive需借助collect_set()函数。对于连接查询，Hive支持小表在前的大表在后的策略以优化性能，并可通过MAPJOIN避免reduce阶段。此外，介绍了Hive的并行执行设置、EXPLAIN功能以及视图的创建。同时，强调了优化查询性能的重要性，如使用合适的连接顺序和设置hive.auto.convert.join参数。

对字符串进行正则匹配时，若包含中文，则需转成 unicode 编码
若进行连接查询，hive 中 on 不支持非等值连接；可以在 on 中使用等值连接，后面再加上 where 条件，进行非等值的判断，但不支持 or
使用 group by 进行去重时，MySQL 可以直接 select 非 group by 字段，获取各组头条匹配数据，但 hive 中会报错；可以通过 collect_set(column_name)，获取组内字段值数组，从而进行后续操作
连接查询通过 where 进行过滤后，左表不保留匹配不上即 null 值的记录
针对上条情况，可以在上述结果表外层包一层查询，左连接上表，on id 相等
hive 中支持 array，map 等数据容器格式及多样的函数或自定义函数，可以合理的使用来简化sql 代码
在进行连接查询时，小表放在左边，大表放在右边，能提高查询性能
map-side JOIN，如果查询语句中有一张是小表，完全可以将小表放在内存中，这样其他表可以在内存中与小表进行逐一匹配，从而省略掉常规连接查询所需要的reduce操作，hive v0.7开始支持两种操作：
1. SELECT /*+ MAPJOIN(d) */ a, b, c... from ...
2. hive> set hive.auto.convert.join=true;
视图view，CREATE VIEW new_view AS SELECT * FROM ...，后续可以像操作表一样来操作这个视图
调优：
1. explain（同于MySQL）：explain SELECT * FROM...
并行执行：当查询语句中包含非依赖关系可以并行执行的语句时，可以开启并发执行，提高job执行效率，但会占用更多的集群资源；设置：
1. hive> set hive exec parallel=true;