Hive
文章平均质量分 91
JamSlade
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 知识点八股文记录 ——(三)区别和原理
left semi join:仅展示A表与B表匹配的记录,并且只展示A表字段,因为left semi join只传递表的join key给Map阶段(,可以用DISTRIBUTE BY和SORT BY语句来实现分布式排序,将排序的负载分散到不同的节点上。partition by 只能和 order by 组合使用。distribute by 只能和 sort by 使用。left join:展示左表和右表的。group by 默认。可以执行mapjoin。的记录,右表的字段值。原创 2025-01-24 16:27:41 · 595 阅读 · 0 评论 -
Hive 知识点八股文记录 ——(二)优化
1.count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1。2.如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行union;where条件优化,join的过程中,对小表先进行where操作(where条件在map端执行),再与另一个表join,而非先join再where。情况,可以将小表存入内存再对达标进行map操作(小表存入内存是hive自己根据表大小确定的)原创 2023-11-09 19:16:00 · 1452 阅读 · 0 评论 -
Hive 知识点八股文记录 ——(一)特性
CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)默认创建内部表,创建外部表,需要加上external关键字修饰,还可通过location指定Hive仓库的路径。两者基本相同,但sql解析器不一样(spark做了较多优化)数据处理都用hql完成的话,选择内部表。原创 2023-11-09 15:35:53 · 1140 阅读 · 0 评论
分享