
Hive
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
在Hive中使用Python编写的UDF函数
在Hive中使用Python编写的UDF函数,需要通过Hive的brickhouse库来实现。brickhouse库提供了一种将Python UDF函数与Hive集成的方法。原创 2024-03-18 14:14:07 · 1103 阅读 · 0 评论 -
Principal [] does not have following privileges for operation CREATETABLE [[OBJECT OWNERSHIP]
赋予所有权限ALL并没有用原创 2022-02-15 17:33:26 · 2321 阅读 · 0 评论 -
Hive指定位置增加字段及解决columns have types incompatible with the existing columns in their respective positio
Hive指定位置增加字段及解决FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The following columns have types incompatible with the existing columns in their respective positions原创 2022-06-28 14:46:04 · 2268 阅读 · 0 评论 -
记一次重大的生产事故
高高兴兴上班来,突闻任务大面积报错,经过一番排查,服务器上某个用户不见了。原创 2022-04-21 14:31:54 · 3486 阅读 · 10 评论 -
Presto Cannot write to non-managed Hive table
使用Presto向Hive表插数据时遇到这个错,我还是头回碰见。Cannot write to non-managed Hive table网上搜了一下也没发现类似的错,不过让我注意到了non-managed Hive table。那么,什么是non-managed Hive table?查了一下才发现,原来 Managed Table 就是 Internal Table,也就是内部表,当建表时没有指明Managed或者External,就会默认创建Managed Table。而 non-man原创 2022-03-23 11:27:48 · 3609 阅读 · 0 评论 -
Hive On Spark报错:Remote Spark Driver - HiveServer2 connection has been closed
执行报错日志为:Failed to monitor Job[-1] with exception ‘java.lang.IllegalStateException(Connection to remote Spark driver was lost)’ Last known state = SENTFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Unable to se原创 2022-01-26 16:21:24 · 4483 阅读 · 0 评论 -
Hive表权限控制
对Hive表的权限管理有多种方式,如Hive自带的权限管理、Ranger、Sentry等,本文介绍前两种。1 Hive自带的权限管理hive> set role admin;OKTime taken: 0.087 seconds# 查看用户tom对edw_dwd.dwd_xx_d_ss表的权限hive> show grant user tom on edw_dwd.dwd_xx_d_ss;OKedw_dwd dwd_xx_d_ss tom USER SELECT false原创 2022-01-25 11:15:41 · 2837 阅读 · 3 评论 -
使用Python切换用户执行Hive SQL
在shell中执行hive sql:hive -e "hive sql"切换用户执行:sudo su - hive -c 'hive -e "hive sql"'但是当用python调用shell时,发现单双引号不够用了咋办呢???使用<<EOF,见下:hive_cmd = 'sudo su - hive -c "hive<<EOF\n' + hive_ddl + '\nEOF"'...原创 2022-01-12 14:55:23 · 1471 阅读 · 3 评论 -
Hive实现删除部分数据 delete from where
insert overwrite table table_nameselect * from table_name where xx;重写符合条件的数据(与删除条件互斥)备注:hive删除表:drop table table_name;永久性删除,不能恢复:drop table table_name purge;hive删除表中数据:truncate table table_name;hive按分区删除数据:alter table table_name drop partitio原创 2021-05-06 17:54:39 · 9287 阅读 · 0 评论 -
SQL JOIN ON WHERE GROUP BY等执行顺序
(8)SELECT (9)DISTINCT (11)<Top Num> <select list>(1)FROM [left_table](3)<join_type> JOIN <right_table>(2)ON <join_condition>(4)WHERE <where_condition>(5)GROUP BY <group_by_list>(6)WITH <CUBE | RollUP>(原创 2020-12-14 14:49:31 · 1228 阅读 · 0 评论 -
Hive优化配置等汇总
1.大小表join(数据倾斜,包括笛卡尔积)优化,小表写在前面(小表大表谁在前区别不大),0.7版本前需要在sql中写/+mapjoin(small_tablename)/,之后版本 set hive.auto.convert.join=true; 即可自动转换,写不写/+mapjoin(small_tablename)/没有区别。脚本开头写:set hive.auto.convert.join=true;set hive.mapjoin.smalltable.filesize=25000000; –原创 2020-10-27 11:17:25 · 531 阅读 · 1 评论 -
基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive
环境版本: HDP-2.5.3注意:HDP中Kafka broker的端口是6667,不是9092前言有两种方式可以将数据通过flume导入hive中,一是直接sink到hive中,二是sink到hdfs中,然后在hive中建个外部表。原创 2019-11-05 15:45:05 · 1696 阅读 · 0 评论 -
使用Sqoop将SQL Server视图中数据导入Hive
环境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on a server2.2 List available tables in a database2.3 ...原创 2019-10-30 21:57:30 · 2071 阅读 · 2 评论 -
Hive、Beeline、Spark-SQL、Spark-Shell CLI使用
文章目录1 Hive2 Beeline3 Spark-SQL4 Spark-shell1 Hive[root@hqc-test-hdp1 ~]# su hdfs[hdfs@hqc-test-hdp1 root]$ cd# 准备数据[hdfs@hqc-test-hdp1 ~]$ vim phone.txt1 iphone5 2G 5999.02 oneplus 3G 2299.03 ...原创 2019-10-29 09:35:39 · 1352 阅读 · 0 评论 -
Hive连接Mysql---FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
hive> show tables;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreC原创 2016-03-26 16:05:44 · 12845 阅读 · 0 评论 -
Hive建立外部表与时间戳转换(含建dual表,修改列名,row_number() 函数等)
建外部表,之前hadoop职位统计就是这么做的hive> drop table job;OKTime taken: 5.446 secondshive> show tables;OKTime taken: 0.018 secondshive> create external table job(area string, experience string, degree strin原创 2016-04-11 18:16:26 · 3981 阅读 · 0 评论 -
Spark SQL/Hive 同一列的多行记录合并为一行
可以写UDAF,但导jar包啥的挺麻烦的,我找了个简单方法,两个函数搞定。需求是这样的,统计出同一用户在同一地点会去哪些商店,商店以':'隔开。(第一列用户id,第二列商店id,第三列地区id,第四列日期)spark-sql> select * from test;1027765 4822 172 201510281027765 4822 172 20151026881482原创 2016-05-26 16:07:21 · 16484 阅读 · 3 评论 -
Hive安装及使用演示
如果你还没有装HIVE,请看这:Hive集成Mysql作为元数据,写的很详细。如果出现FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask请看这:FAILED: Execution Error, return code 1hive> create database guo;原创 2016-03-26 19:00:24 · 1880 阅读 · 0 评论 -
Hadoop与MongoDB整合(Hive篇)
1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统的关系型数据库原创 2016-06-17 11:33:30 · 29690 阅读 · 11 评论 -
Hive几种数据导入导出方式
导入:Hive几种数据导入方式导出:http://gaoxianwei.iteye.com/blog/21584751.拷贝文件 如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert in转载 2016-04-15 13:21:18 · 2625 阅读 · 0 评论 -
通过sqoop将mysql中表传到hive中
1.测试mysql连接 [hdfs@ws1dn1 root]sqooplist−databases–connectjdbc:mysql://192.168.1.65:3306/–usernameroot−PWarning:/usr/hdp/2.4.2.0−258/accumulodoesnotexist!Accumuloimportswillfail.Pleaseset sqoop list-da原创 2016-10-13 15:35:54 · 2078 阅读 · 2 评论 -
Spark SQL简单操作演示(含导出表)
Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL原创 2016-05-15 22:10:43 · 20492 阅读 · 3 评论 -
查看Ambari自动配置的hive与spark sql元数据库
先找下spark配置文件在哪[root@ws1dn3 ~]# whereis sparkspark: /etc/spark[root@ws1dn3 ~]# cd /etc/spark/[root@ws1dn3 spark]# lltotal 8drwxr-xr-x 3 root root 4096 Oct 8 11:16 2.4.2.0-258lrwxrwxrwx 1 root roo原创 2016-10-13 15:29:05 · 6125 阅读 · 4 评论 -
Hive差集运算详解
我们先来了解一下什么是差集差集定义:一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差),类似地,对于集合A.B,我们把集合{x/x∈A,且x¢B}叫做A与B的差集,记作A-B记作A-B(或A\B),即A-B={x|x∈A,且x ¢B}(或A\B={x|x∈A,且x ¢B} B-A={x/x∈B且x¢A} 叫做B与A的差集原创 2016-04-18 21:39:52 · 31147 阅读 · 4 评论 -
Hive UDF自定义函数编写小例子
感谢段海涛老师~先写一个java类,定义函数逻辑(静态代码块模拟字典)package club.drguo.hive;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;//club.drguo.hive.PhoneNumToAreapublic class PhoneNumToArea exte原创 2016-03-26 22:03:25 · 3056 阅读 · 0 评论