
hive
文章平均质量分 64
kiraraLou
这个作者很懒,什么都没留下…
展开
-
【hive】hive修复分区或修复表 以及msck命令的使用
我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话,你用。在 Hive 中,当您向分区表添加、删除或更改分区数据时,有时会导致分区元数据不一致的情况。数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失,重新建表后查看hive分区没有,数据也没有。之前hive里有数据,后面存储元数据信息的。原创 2023-08-17 15:12:17 · 6129 阅读 · 0 评论 -
【hive】简单介绍hive的几种join
common join 主要是针对数据/业务逻辑的join。Map joinSkew Join是hive 针对特殊数据、场景 进行的优化。则是Sql语句的优化,并且也可以应用上面的优化方案。MAP JION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。原创 2023-08-17 15:04:53 · 2232 阅读 · 0 评论 -
【hive】hive分桶表的学习
每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。原创 2023-08-15 16:19:55 · 1740 阅读 · 0 评论 -
【hive】hive中row_number() rank() dense_rank()的用法
主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。原创 2023-08-15 16:05:26 · 2131 阅读 · 0 评论 -
【hive】hive order、sort、distribute、cluster by区别与联系
。原创 2023-05-19 14:57:24 · 662 阅读 · 0 评论 -
【hive】hive grouping sets和GROUPING__ID的用法
CUBEROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。根据不同的维度组合进行聚合,等价于将不同维度的group by的结果进行union all,简单来说就是将多个不同维度的group by逻辑写在了 一个sql中。创建表开始使用查询结果如下:上面这个sql等同于多个group by + union all注意点:使用union和union all。原创 2023-05-15 14:17:43 · 825 阅读 · 0 评论 -
【hive】hive的调优经验
本文已参与「新人创作礼」活动,一起开启掘金创作之路。一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下,500个128M的文件和2个30G的文件 跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。三、数据格式hive提供text,sequenceFile,RCFile,ORC,Parquest等格式。sequenceFile是一个二原创 2022-05-27 14:54:20 · 1099 阅读 · 0 评论 -
【CDH】cloudera mamager中配置hive加载第三方JAR
前言再将 hbase 导入 hive 表时,出现行数远远大于实际的数量,排查后发现是hbase 数据中有很多换行, 所以需要使用第三方的jar 的行分隔符。这里使用了自定义的jar包。永久添加这时想要使用jar 包每次都需要手动添加,然后才能使用。这里我们使用永久添加的方式。配置Hive 辅助 JAR 目录 设置 /opt/cloudera/parcels/CDH/lib/hive/auxlibhive-env.sh 的 Gateway 客户端环境高级配置代码段(安全阀) 设置 HIVE原创 2022-03-21 14:43:32 · 2143 阅读 · 0 评论 -
【hive】CDH5.13的HiveMetaStore因Sentry同步导致的慢查询锁表问题
前言最近公司HADOOP集群突然变慢了,具体的表现为进入hive后,提交查询语句,很久之后才会提交到YARN 集群上。并且Yarn 集群资源使用比较空闲。所以并不是集群资源不足导致的。也查询了很多网上的文章,最后解决问题了。这里整理并记录下。异常表现当提交sql 后,进入阶段一特别慢,有时甚至卡个几分钟。并且进入第阶段二也是很慢。并且hive 的日志也有很多与 Lock 相关的报错,如NoSuckLock 或 timeout 等错。在受影响的版本中,某些工作负载可能导致Hive Metastore原创 2022-03-17 10:14:15 · 4407 阅读 · 0 评论 -
【hive】hive搭建单机环境启动报错:system:java.io.tmpdir
问题描述搭建一套单机的 Hadoop 环境进行测试,在启动 hive 服务时报错。报错内容Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D原创 2022-02-17 11:48:06 · 511 阅读 · 0 评论 -
【hive】记录一下工作中用到的hive命令
前置命令初始化元数据信息schematool -dbType mysql -initSchema启动hive和hivesever2nohup hive --service metastore 1>/mnt/metastore.log 2>&1 &nohup hive --service hiveserver2 1>/mnt/hiveserver2.log 2>&1 &一、连接hivebeeline连接没有权限的hive原创 2021-11-30 19:01:47 · 684 阅读 · 0 评论 -
【hive】kerberos 环境下hive 创建 hbase 映射表报错 HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘
问题描述:使用hive 创建hive 与 hbase 的映射表时报错,说没有创建表的权限。报错内容:HIVE HBASE INSUFFICIENT PERMISSIONS FOR USER ‘hive‘解决方案:进入hbasehbase shell赋予用户权限grant 'hive','RWXCA'...原创 2021-10-26 10:29:57 · 685 阅读 · 0 评论 -
【hive】MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT‘ at lin
一、前言:最近线上CDH集群数据库崩溃,且无法恢复,影响范围Cloudera Manager服务无法使用,HIVE 元数据信息丢失,后续通过一系列手段进行了数据恢复。在重新安装Hive服务时,遇到了一些报错。环境信息:CDH:5.13Mysql:5.6二、报错内容:hive创建表表时报错如下:hive> create database test;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.原创 2021-10-21 14:00:46 · 1158 阅读 · 0 评论 -
【hive】hive常用函数(待更新)
substr/substring使用语法: substr(string A, int start),substring(string A, int start) 两者用法一样,两个参数返回值: string说明:返回字符串A从start位置到结尾的字符串举例: hive> select substr('abcde',3) fromlxw_dual;cdehive> select substr('abcde',-1) from lxw_dual; (和ORACLE相同,负数从最原创 2021-09-29 15:32:27 · 108 阅读 · 0 评论 -
【hive】hive查询报错INFO: os::commit_memory(0x00000006e9990000, 3597074432, 0) failed; error=‘Cannot alloc
报错内容:INFO : Starting task [Stage-14:MAPREDLOCAL] in serial modeJava HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000006e9990000,原创 2021-09-26 11:42:40 · 988 阅读 · 2 评论 -
【hive】hive针对map、reduce端的内存溢出的一些session配置
主要是针对Mapreduce的,map端和reduce端的内存溢出做的一些参数优化。可能不是最优,仅供参考:map端内存溢出参数配置参考:set mapreduce.job.queuename=tj;set hive.mapjoin.smalltable.filesize = 500;set mapred.map.tasks = 20;set mapred.reduce.tasks = -1;set mapred.max.split.size=32000000;set mapred.min.s原创 2021-08-05 16:33:43 · 908 阅读 · 0 评论