
Hive 杂谈
文章平均质量分 95
Hive 杂谈之 Hive 的学习之路,文章内容均为原创,禁止搬运!
月亮给我抄代码
大数据的坑,让我来踩吧!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL 与 Hive 的小文件调优
小文件会造成 nn 处理压力变大,大大降低了读取性能,整个 HDFS 文件系统访问缓慢,大量的小文件还会导致 nn 内存溢出,无法正常使用。以上参数调优都是临时调优,仅限于本次会话,如果想要永久设置的话只需要将参数配置到。可以先查看我们操作的数据量大小,然后用它去除以我们的集群块。一般情况数据量小的话,只需要设置前面两个参数就可以了。我的建议是,不如直接调用方法。新建了一个和其结构一样。新建了一个和其结构一样。原创 2022-12-02 20:05:30 · 2455 阅读 · 0 评论 -
一文看懂 Hive 优化大全(参数配置、语法优化)
在数据库和 SQL 查询中,“Hint” 是一种用于指导数据库查询优化器执行查询的特殊注释或指令。它允许数据库管理员或开发人员向查询优化器提供额外的信息,以帮助优化器生成更有效的查询计划。SQL Hint 通常以特定的注释形式嵌入到查询语句中,以提示数据库系统如何执行查询。原创 2023-09-01 17:55:08 · 2536 阅读 · 0 评论 -
Hive 存储与压缩
通过对存储效率与压缩效率,综合时间效率,在实际生产过程中,我们一般使用 ORC 或 Parquet 作为 Hive 表的数据存储格式,而压缩方式则推荐使用SNAPPY 作为压缩策略。原创 2022-11-01 18:17:02 · 2416 阅读 · 0 评论 -
Hive 相关面试题
在物理层面上,分桶其实就是根据规则,创建文件的过程,而分区则是创建文件夹的过程。删除表时,内部表会把元数据及真实数据删除,而外部表不删除真实数据。同样也是对 key 进行分区,但它只能用在窗口函数中,结合。对数据进行全局排序,只有一个 reduce 工作。在数据进入 reduce 前完成排序,一般和。操作进行分桶,最后根据指定字段对每个桶进行排序。的数据由 HDFS 存储,路径可以自己指定。只能进行升序排列,不能指定排序规则。的数据由 Hive 管理,且存储在。对 key 进行分区,结合。原创 2022-11-02 16:38:26 · 1254 阅读 · 0 评论