
Hive
文章平均质量分 56
狂奔吧蜗牛
专注大数据领域,熟悉Hadoop、Hbase、Hive、Spark、Kudu、Kylin、Kafka、Flumn、Sqoop、ES、数据仓库、Apache Atlas等。
展开
-
跨集群数据同步
hive 跨集群数据同步,hadoop distcp实现原创 2021-11-30 10:05:35 · 2088 阅读 · 0 评论 -
大数据踩过的坑——Hive where 条件中 not in 或者 in的隐藏信息
最近查询数据的时候遇到了一个问题,百思不得其解,具体现象如下:select count(1) from idm.idm_table1_s_d where dt = '2020-03-18'结果为:2053683514select count(1) from idm.idm_table1_s_d where dt = '2020-03-18' and col_1 in ('1978004...原创 2020-04-19 21:34:05 · 6377 阅读 · 0 评论 -
Hive解析Json字符串(含json数组)
由于字段内容为Json字符串,随需要用到get_json_object(string json_string, string path),最初只是知道该方法可以解析简单的json字符串,比如:select get_json_object('{"key1":"value1","key2":"value2","key3":"value3"}','$.key1')结果:value1但由于目...原创 2020-04-19 21:11:29 · 4537 阅读 · 1 评论 -
本地Spark连接Hive异常问题
环境:idea spark2.2 hive1.1 maven3场景:本地运行Spark代码,连接Hive集群查询数据:本地设置了SPARK_HOME、SCALA_HOME将hive-site.xml复制到本地的%SPARK_HOME%/conf/路径下代码如下:def main(args: Array[String]): Unit = { val wareho...原创 2019-07-08 18:56:40 · 7209 阅读 · 0 评论 -
Hive UDF实现身份证强校验
工作中需要对Hive表中的身份证号进行强校验,由于最后一位是校验位,因此,简单的正则无法实现,随用UDF实现相关功能。我只是实现了功能,没有做深入的优化,欢迎各位留言,指导下如何优化,不胜感激。源码如下,import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseException;import java....原创 2019-04-17 19:36:49 · 2109 阅读 · 0 评论 -
hive on spark 调优点
目录yarn配置1. 配置cores2. 配置内存spark配置1. executor内存2. driver内存3. executor数4. 动态executor申请5. 并行度hive配置预启动YARN容器hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on sp...转载 2019-04-09 10:15:52 · 1386 阅读 · 0 评论 -
用Hive、Impala查询Hbase数据
近期有项目需要向Hbase写入数据,为了测试数据写入是否正常,常用Hbase shell查询数据,但是用起来比较麻烦,看到Clouder官网有关于使用Impala查询Hbase的操作说明,做了简单的尝试,记录如下,供大家参考。环境:CDH 5.10.2、Impala 2.7.0、Hive 1.1.0、Hbase 1.2.0原理:Hive创建外部表,建立与Hbase表的映射关系,从而...原创 2018-10-15 16:03:57 · 3789 阅读 · 0 评论 -
Impala用户自定义函数(UDF)
因业务需要用到MD5,但Impala没有该函数,随借助UDF实现。以下是实现过程。UDF实现要点:根据集群中Hive的版本导入对应版本的hive-exec.jar自定义UDF类要继承接口UDF实现evaluate()方法maven依赖: <dependency> <groupId>org.apache.hive</groupId&...原创 2018-04-24 19:40:56 · 12708 阅读 · 3 评论 -
Hive查询使用exists/not exists报错For Exists/Not Exists operator SubQuery must be Correlated.
我执行的sql如下:select * from db_name.table_name_1 where exists(select 1 from db_name.table_name_2 a where a.row_id = db_name.table_name_1.row_id )执行后报错信息为:Error while compiling statement: FAILED: SemanticE...原创 2018-02-23 18:37:32 · 21906 阅读 · 3 评论 -
Hive实现update和delete
因为业务要求,需要对Hive表进行delete,在官网查询后,发现update和delete是一类问题。在此总结下如何实现Hive表的delete和update。首先,先看下官网关于update和delete的相关说明,使用注意事项也请参考官网说明,这里只介绍如何实现相关功能。综合上述信息,Hive自0.14版本开始支持update和delete,要执行update和delete的表必须支持ACI...原创 2018-02-27 14:54:46 · 58018 阅读 · 3 评论 -
Hive分桶
Hive中的分桶,是对指定的列值取哈希与指定的分桶数取模,根据余数确定数据所在的分桶,适用于抽样和map-join。创建分桶表create table bucket_table_name [columns] clustered by (bucket_column_name) [SORTED BY (col_name [ASC|DESC], ...)] into num_buckets bucket...原创 2018-02-12 13:24:54 · 658 阅读 · 0 评论 -
Hive正则——regexp_extract
Hive中与正则相关的函数有两个,regexp_extract和regexp_replace,本篇介绍regexp_extract。官网中关于regexp_extract的介绍如下:参数说明: subject:待解析的字符串或者字符串类型的字段; pattern:正则表达式 index:返回结果取表达式的哪一部分 默认值为1。0表示把整个正则表达式对应的结果全部返pattern...原创 2018-02-11 12:02:04 · 4268 阅读 · 0 评论 -
大数据踩过的坑——Hive union
我在使用Hive SQL时,一直以关系型数据库SQL的语法写的Hive SQL。当多表union同时需要去重的时候,我是用了如下SQL: select a.col1,a.col2,a.col3 from table_name_1 a union select b.col1,b.col2,b.col3 from table_name_2 b在运行时报错,错误信息为:Error w...原创 2018-02-26 11:14:45 · 7900 阅读 · 0 评论 -
大数据踩过的坑——Hive insert
我在对Hive表数据清洗后,使用了如下SQL将结果集插入到新表中: insert into db_name.table_name_1 ( col_1,col2,col3 ) with temp_table_1 as ( select id,col_2 from db_name.table_name_2 where id = condatiti...原创 2018-02-26 10:49:31 · 10079 阅读 · 0 评论 -
Hive存储格式对比
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。TextFile每一行都是一转载 2018-01-19 10:38:43 · 6686 阅读 · 0 评论