HIVE
shammy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive性能调优
一、调参数 1、调整map、reduce、job数量–原理未理解,参考网上资料 2、job过多时,尤其是union all过多时,开启job并行,但是比较耗资源 set hive.exec.parallel=true; set hive.exec.parallel.thread.number=10;#表示同时运行的job的个数 二、减少数据量 1、检查筛选条件(最常用,一般漏掉日期筛选条件导致数据倾斜) 2、按照hive的执行顺序,过滤条件的位置:on>where>having 3、where中原创 2021-08-23 16:56:00 · 377 阅读 · 0 评论 -
hive异常:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata空值引发的报错
1、问题:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error 2、原因:目前0.14版本hive在join的时候,如果可以有null值的话会报异常 3、解决办法:临时方案切换到0.13,等待后续修复 ...原创 2021-04-23 10:48:16 · 2806 阅读 · 0 评论 -
hive入门学习:explain执行计划的理解
参考资料: explain执行计划详解原创 2021-02-25 10:54:20 · 185 阅读 · 0 评论 -
hive异常:total number of created files now is 101247, which exceeds 100000(distribute by控制分区文件数)
distribute by控制分区文件数 1、学习别人的资料:distribute by控制分区文件数 2、实战经验: 开发过程中,用动态分区补历史数据,动态分区342个,mapreduce如图1,产生了超1万个文如图2。采用distribute by动态分区字段解决问题。 图1 图2 ...原创 2020-06-30 15:57:09 · 1637 阅读 · 0 评论 -
MYSQL如何分区更高效
一、分区基础知识 Mysql数据库表分区 二、知识点总结原创 2020-06-30 15:54:19 · 235 阅读 · 0 评论 -
Hive的分区(partition)-动态分区
Hive的分区 一、概述 分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。hive中支持两种类型的分区: 静态分区SP(static partition) 动态分区DP(dynamic partition) 静态分区与动态分区的主要区别在于静态分区是手动指定...原创 2019-08-21 16:12:05 · 25149 阅读 · 0 评论 -
Mysql的索引(index)
mysql索引(index) 声明:本文为博主参考网上资料整理的文章,未经博主允许不得转载,如有问题,欢迎指正。 一、什么是索引 索引(Index)是帮助MySQL高效获取数据的数据结构。 二、索引的分类(从应用层面来划分) 普通索引:即一个索引只包含单个列,一个表可以有多个单列索引,仅加速查询 唯一索引:加速查询 + 列值唯一(可以有null) 主键索引:加速查询 + 列值唯一(不可以有nu...原创 2019-08-23 18:09:01 · 501 阅读 · 0 评论 -
Hive的联级(cascade)-新增字段(column)后,旧分区无法更新数据问题
问题描述: 实际应用中,常常存在修改数据表结构的需求,比如:增加一个新字段。 如果使用如下语句新增列,可以成功添加列col1。但如果数据表tb已经有旧的分区(例如:dt=20190101),则该旧分区中的col1将为空且无法更新,即便insert overwrite该分区也不会生效。 alter table tb add columns(col1 string); 解决方法: 解决方法很简单,就...原创 2019-08-23 18:07:37 · 17390 阅读 · 0 评论
分享