
hive
文章平均质量分 79
hive相关
枫夜求索阁
「枫夜·求索阁」——技术人的思维藏经阁。十年开发沉淀架构设计/源码解析/效能工具,同步技术博客(https://www.fengyege.top/)。既写硬核代码,也谈工程师人文修行,守拙求真,与大家共探技术美学与人生代码。
展开
-
问题解决:java运行HiveQL,报错:java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
使用Java编写HiveQL语句,然后通过jdbc的方式远程连接hive集群,并执行。在执行过程中,出现报错,其错误信息为:“java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration”。根据这个问题提示,按照步骤解决了问题,并整理成博文输出。原创 2020-06-17 23:38:39 · 17332 阅读 · 5 评论 -
Hive学习系列:maven+springboot+CDH环境下,连接Hive进行操作
在当前项目中,因为之前使用数据库查询,而随着数据的增多,查询速度会越来越慢,所以需要使用`Java`来调用`hive`进行数据统计。本篇博文主要是使用`springboot`+`hive`来查询`hive`数据,并返回查询的数据结果。原创 2020-06-08 13:57:52 · 1543 阅读 · 0 评论 -
问题解决:hive建表之后存在中文注释乱码的问题
文章目录问题场景问题环境问题原因解决方案结果总结参考链接随缘求赞问题场景为了后面的维护同事方便,一般都会要求同事在写hive建表语句的时候,都需要添加相关的注释,包括字段注释和表注释。而一般都是直接为中文注释的。如下是一个比较完整的hive建表语句:CREATE EXTERNAL TABLE `test`( S_NO string COMMENT '序号', I_TYPE int COM...原创 2020-04-01 17:11:59 · 1405 阅读 · 1 评论 -
问题解决:Only SubQuery expressions that are top level conjuncts are allowed
文章目录问题场景问题环境问题原因解决方案结果总结PS问题场景在CDH的hue界面控制台上面,使用hive组件,执行较为复杂的SQL,SQL内含有in关键字,而in内部是关联其他表的结果。因为里面含有or字段,导致hive解析SQL的时候,认为in的条件不是位于第一序列,然后报错。可能说着很抽象,以下是SQL:select a.a1,a.a2,count(*) as numfrom test...原创 2020-03-09 13:04:23 · 16760 阅读 · 0 评论 -
SparkException——Dynamic partition strict mode 问题解决
问题场景在spark-shell控制台,运行testDF.write.mode("append").partitionBy("dt").saveAsTable("t_pgw_base_statistics_final_dy_test");,提示org.apache.spark.SparkException: Dynamic partition strict mode requires at l...原创 2018-08-31 18:03:28 · 5297 阅读 · 0 评论 -
hive表新增字段之数据展示问题解决
问题场景给表新增了字段,重新运行了SQL,但是控制台select表数据,新增的字段值一直为空问题解析查看了SQL,SQL没有问题;查看了hdfs的文件,使用命令hadoop fs cat查看文件内容,发现字段里面有值,文件值没有问题;这样,既不是SQL问题,也不是文件内容的问题,那么很可能就是旧有的分区关联存在问题。问题解决方式重新删除了表分区,然后重新关联。再一次...原创 2018-08-31 14:12:46 · 1457 阅读 · 0 评论 -
hadoop hive 动态分区
应用场景突然业务有要求,要求将以前的每个月的数据进行抽取保存。如果只是单纯一条一条的执行,又太过于繁琐。作为程序员,这肯定不能忍。所以,这个时候,就需要动态分区了。重要参数// 动态分区set hive.exec.dynamic.partition=true;// 非严格模式。可以不指定特定的分区。如果是严格模式,那么至少要指定一个分区set hive.exec.dyna...原创 2018-06-28 11:49:27 · 676 阅读 · 0 评论 -
“ error in shuffle in fetcher”的解决方案
问题场景使用hive进行数据的统计,发现数据进行到一半,就异常退出。查看了报错,是栈溢出,导致了异常。问题分析通过查找资料和查看资料,才发现,在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0.25,代表...原创 2018-06-21 17:51:02 · 3489 阅读 · 0 评论 -
hive 如何去除两个表相同的部分
问题场景在项目开发当中,有时候需要配合用户出报表数据。这一部分是一个难题,因为数据量大,运行时间比较长,所以就需要慎重地写SQL,保证问题的顺利解决。而这次是需要去除同一个表的两部分数据的相同部分。解决思路将同一个表的两部分数据分别抽离出来做一个表,使用left outer join来关联两个表,然后将相同字段的条件放在on里面,然后将另一个表的相同字段为空的条件放在where里面...原创 2018-05-22 10:33:42 · 8642 阅读 · 0 评论 -
hive笔记
hive不支持修改表中数据,但是可以修改表结构,而不影响数据有local的速度明显比没有local慢在hive内执行Hadoop的dfs命令:(去掉hadoop,以;结尾)没有一个命令可以让用户查看当前所在的是哪个数据库库在hive内执行一些bash shell命令(在命令前加!并且以;结尾即可)Hive脚本如何注释: 使用–开头的字符串来表示注释hive中使用正则表达式 hiv...原创 2018-05-07 10:18:49 · 251 阅读 · 0 评论 -
hive 命令整理
启动hive数据库操作create database database_name; -- 新建数据库creat database if not exists -- 新建数据库 database_name;show databases; -- 查看数据库show databases like 'h.*'; -- 查看数据库use default; --使用哪...原创 2018-05-07 10:10:39 · 1452 阅读 · 0 评论