
hive
文章平均质量分 66
Deegue
这个作者很懒,什么都没留下…
展开
-
Hive2.3.6升级至Hive3.1.3踩坑
1、coalesce报错FAILED: SemanticException [Error 10014]: Line 197:4 Wrong arguments ''10'': Unsafe compares BETWEEN different types are disabled for safety reasons. If you know what you are doing, please SET hive.strict.checks.type.safety t原创 2020-07-28 10:02:36 · 6086 阅读 · 3 评论 -
Hive server2慢启动问题排查与解决
1、问题描述在Hive升级到2.3.6版本后,启动Hive server2需要花费15分钟左右的时间,这对于平时调试和紧急重启影响很大。因此查看启动log,发现两处疑点:发现主要耗时就在这两处,第一次6分多钟第二次刚好5分钟。2、问题排查不多不少的5分钟让我想到了配置metastore连接的超时时间(hive.metastore.client.socket.timeout)刚好也是300s,于是去看这部分代码,并增加了些日志来排查。org/apache/hadoop/hive/metastore原创 2020-06-17 17:19:09 · 6077 阅读 · 0 评论 -
Hive权限认证模块详解
1、前言前段时间,在升级Hive版本(从Hive1.1.0升级至Hive2.3.6)的过程中,遇到了权限兼容问题。(升级相关请移步Hive1.1.0升级至2.3.6 踩坑记录)Hive1.1.0使用的是AuthorizerV1而Hive2.3.6默认是AuthorizerV2,两者相差极大。其中AuthorizerV2的权限验证极为严格,如果曾经使用V1鉴权想要使用V2的,需要修改部分代码...原创 2020-03-13 20:00:08 · 3290 阅读 · 0 评论 -
Hive1.1.0升级至2.3.6 踩坑记录
1、union all 左右字段类型不匹配Hive尝试跨Hive类型组执行隐式转换。隐式转换支持类型如下表:例:hive> select 1 as c2, 2 as c2 > union all > select 1.0 as c1, "2" as c1;FAILED: SemanticException Schema of both sides ...原创 2019-12-20 14:46:36 · 4211 阅读 · 2 评论 -
Hive SQL执行全过程源码解析(Hive3.1)
Hive任务提交源码解析原创 2019-12-23 17:05:11 · 8244 阅读 · 4 评论 -
MapReduce框架以及Hive任务提交详解
起因在切Hive任务到Spark的时候,发现Spark在处理只有Hive元数据而HDFS文件块丢失的任务时,会抛HDFS的异常InvalidInputException,而Hive在这种情况下不受影响。因此,就去找Hive在处理只有元数据的空表时做的优化。发现Hive会在读表前,setInputPaths时做一次判断,如果HDFS不存在对应的文件,则会生成一个DummyTable/DummyP...原创 2019-11-11 11:06:47 · 4789 阅读 · 0 评论 -
记一次Spark ThriftServer Bug排查
问题描述我们在用Spark ThriftServer(以下简称STS)用在查询平台时,遇到了以下报错:ERROR SparkExecuteStatementOperation: Error executing query, currentState RUNNING,org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.q...原创 2019-07-01 15:22:08 · 2575 阅读 · 0 评论 -
Hive on Spark 搭建&踩坑
背景:想通过jdbc连接hive的方式,用spark引擎,hive的数据,来处理业务需求。环境:一台1C2G的ECS,渣渣机器;需要搭建集群的只需要更改yarn、slaves的配置即可。接下来肯定会关注的问题就是版本了,版本的选择有千千万万种,这边的参考版本可在下面的参考配置中获得。最关键的就是版本的匹配了,之前瞎配,最后会导致各种无法解决的问题。所以还是在动手前,先好好看看官方文档吧。Hive和...原创 2018-05-10 15:40:27 · 9168 阅读 · 0 评论 -
Hadoop 过滤,映射,谓词下推基本概念
1. Filter(过滤) 和 Project(映射) 在传统的 OLAP 系统中,在进行 Join 的时候使用过滤和映射会极大的提高性能。同样的,在 Hadoop 中使用 Filter 和 Projection 同样可以提高效率,由于减少了一个管道需要处理的数据量。在Hadoop中减少处理的数据量是至关重要的,尤其当需要通过网络和本地磁盘进行处理的时候。我们都知道,MapReduce 的shuf...原创 2018-04-25 10:35:50 · 13727 阅读 · 0 评论 -
zeppelin on yarn 搭建遇到的问题总结
搭建zeppelin还是非常坎坷的,从最开始git clone源码下来打包,就会等上半天,弹个包下不来之类的报错。。可以说是很扎心了,,切入正题:1、spark 2.0及以上的版本,配置yarn的时候,需要的配置:2、配置interpreter的时候,依赖的添加如spark 需要添加你的机器hadoop版本:hive则需要加上hado...原创 2018-03-30 11:16:33 · 14894 阅读 · 0 评论 -
hive复制表 存储格式转换
在之前的博客中已经介绍过hive的四种存储格式:http://blog.youkuaiyun.com/zyzzxycj/article/details/79267635本文以ORCFile存储格式为例,详细介绍hive上转换表的存储格式的步骤和需要注意的地方。1、 查看需要转换的原表信息show create table 表名;这边的tmp_mf原创 2018-02-06 14:34:34 · 8873 阅读 · 0 评论 -
hive版本查看
由于hive并没有提供-version类似的命令去查看版本,本文提供了一种较为便捷的方法。具体思路是查看hive运行时,加载的jar的信息,来查看hive版本。1、先启动hive[root@hadoop1008 ~]# hive2、新建终端窗口,连接上服务器,并输入jps查看进程找到RunJar对应的id。3、原创 2018-02-06 11:32:16 · 11939 阅读 · 0 评论 -
hive四种存储格式介绍与分析比较
一、四种存储格式介绍1、TestFileTextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。原创 2018-02-06 10:29:35 · 32047 阅读 · 5 评论 -
hive 表的复制
1、首先需要明确分区表和非分区表可以通过查看建表信息命令:show create table 表名;查看是否有partition 分区信息。2、非分区表的复制将表t_temp复制到新建表t_copy:create table t_copy as select * from t_temp;3、分区表的复制分区表如原创 2018-02-01 19:06:15 · 778 阅读 · 0 评论