
Hive
文章平均质量分 95
Zsigner
这个作者很懒,什么都没留下…
展开
-
【HIVE】Hook(钩子)函数从入门到放弃
背景:初衷是源于对hive hook(钩子)函数的一知半解,在跟大佬交流过程中恨自己理解的不够深入(丢脸了,丢脸这件事一次就够了哈),故写下了这篇文章自省也希望大家可以从中学习1、了解hive hook需要先了解hive的整体是怎么运行的,我们先来看看我们平时写下的一句句hql是怎么运行的吧图来自:https://cloud.tencent.com/developer/article/16768161.0、具体处理流程如下:HQL解析生成AST语法树 Antlr定义SQL的语法规.原创 2021-03-30 14:16:10 · 8560 阅读 · 6 评论 -
【HIVE】hive 使用shell脚本跑历史数据
背景:补充分区表历史数据,写了个shell脚本脚本代码:vall=(20191201 20191224 20191225 20191226 20191227 20191228 20191229 20191230 20191231 20200101 20200102 20200103 20200104 20200105 20200106 20200107 20200108 20200109 20200110 20200111 20200112 20200113 20200114 20200..原创 2020-12-31 10:33:11 · 756 阅读 · 0 评论 -
【HIVE】 hive元数据查询语句集合
1、查询表字段select d.db_id, d.NAME db_name, t.tbl_id, t.tbl_name, t.tbl_type, from_unixtime(t.create_time) create_time, c.column_name, c.type_name column_type, c.comment column_descfrom TBLS t inner join DBS d on t.DB_ID = d.DB_IDinner join SDS s on t.SD原创 2020-12-28 15:56:11 · 1407 阅读 · 0 评论 -
【HIVE】从零开始编写UDF函数对MD5加密的数据解密查询
背景:对敏感数据脱敏其实也就是加密,用的是mysql,hive的md5加密函数,现在需要提供一个UDF函数给应用方查询,换句话说就是用明文来查询密文数据里面的其他对应字段数据一、编写UDF函数1、构建Java Maven项目IDEA步骤: File -》 New -》Project... -》Next -》填写项目名称2、pom.xml 文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="ht...原创 2020-12-28 15:11:49 · 2564 阅读 · 0 评论 -
【HIVE】 hive 导入导出csv(全)
Hive 导入csv文件H1、检查是否有hive-serde 包1.1 进入hive lib目录cd /usr/local/service/hive/lib1.2 发现hive version 是2.1.1 ,查看是否添加了hive-serde-2.1.1.jar(我这里已经添加了,没添加的看后续1.3)ll hive-serde-2.1.1.jar1.3 没添加的,直接下载,放到lib目录下cd /usr/local/service/hive/lib...原创 2020-12-21 17:42:38 · 4003 阅读 · 0 评论 -
【备份】 备份生产环境的hive database,table DDL语句
话不多说直接上脚本好了,拷贝下来可直接运行,最终的hql语句在bak_table_ddl.hql#!/bin/bashhive -e "show databases "> database.txtrm -rf bak_table_ddl.hqlwhile read database do hive -e "show tables in $database" > tables.txt while read table do .原创 2020-08-21 17:41:55 · 385 阅读 · 0 评论 -
hive窗口函数 (V1.0)
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.jianshu.com/p/12eaf61cf6e1一:前言根据官网的介绍,hive推出的窗口函数功能是对hive sql的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。二:理解下什么是WINDOW子句(灵活控制窗口的子集)PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:转载 2020-06-27 23:15:45 · 229 阅读 · 0 评论 -
【HIVE】Hive 显示查询的字段名
1、在没有配置项时查询的结果如下2、添加配置,在当前CLI窗口set只能起到局部的作用,想永久生效可以在配置文件里hive-site.xml 2.1、只保留在当前会话窗口有效命令:set hive.cli.print.header=true;2.2、配置永久生效命令,打开hive-site.xml文件:<configuration> <property> <name>hive.cli.print.header<..原创 2020-06-24 14:33:51 · 2952 阅读 · 0 评论 -
hive部分:hive的优化,MapReduce的优化
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/wyqwilliam/article/details/81973974hive 核心思想:把 Hive SQL 当做 Mapreduce 程序去优化。以下 SQL 不会转为 Mapreduce 来执行:select 仅查询本表字段; where 仅对本表字段做条件过滤。explain 命令可以显示执行计划:EXPLAIN [EXTENDED] query; EXTE转载 2020-06-21 15:04:47 · 327 阅读 · 0 评论 -
Hive建模 类型
https://www.cnblogs.com/xupccc/p/9544575.html1、介绍Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模,所谓建模,就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。1.1 星型多张维度表,一张事实表,转载 2020-06-21 14:59:09 · 462 阅读 · 0 评论 -
hive创建一个自定义函数处理复杂数据
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/wangjiadongge/article/details/824248701.数据格式实例:-------------------------------------1,zhangsan:18:beijing|nan|it,20002,lisi:28:nanjing|nan|it,40003,xiaowu:38:qingdao|nan|it,1000----------转载 2020-06-21 14:58:11 · 348 阅读 · 2 评论 -
hive使用动态分区插入数据详解
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/qq_26442553/article/details/80382174 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。1.创建一个单一字段分区表hive>cr...转载 2020-06-21 14:43:32 · 460 阅读 · 0 评论 -
hive的各种存储类型对比
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/yisun123456/article/details/89680107Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。ClouderaImpala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|SequenceFi..转载 2020-06-15 20:34:43 · 434 阅读 · 0 评论 -
【HIVE】Hive 通过控制角色(role)权限访问
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/javajxz008/article/details/81084744hive有两种类型的权限控制方式:一、通过Hcatcalog API访问hive数据的方式,实际是通过访问metastore元数据的形式访问hive数据,这类有MapReduce,impala,pig,Spark SQL,hive Command line等方式,基于这种方式的权限控制称为:Storage Bas原创 2020-06-15 20:16:13 · 6135 阅读 · 3 评论 -
Hive性能调优总结
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/frankdeng/p/9463897.html一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.t...转载 2020-05-15 15:05:55 · 577 阅读 · 0 评论 -
【HIVE】Hive sql 语句记录
1、hive 格式化时间戳 1.1 时间戳10位 单位为(秒)time = 1583927782select from_unixtime(time,'yyyy-MM-dd HH:mm:ss') date from log limit 10;1.2 时间戳为13位 单位为(毫秒)time = 1583927782469;select from_unixtime(ca...原创 2020-03-11 22:14:03 · 335 阅读 · 0 评论 -
【DBEAVER】DBeaver 工具 连接hive 可视化
连接如图,自己搭建的hive没设置的话用户名跟密码可以不用填:异常报错:1、User: xxxis not allowed to impersonate root),xxx是自己的电脑名字,这个不重要解决思路,进入hadoop 目录/etc/hadoop/ 编辑core-site.xml ,在配置里添加<property><name>h...原创 2020-03-07 15:10:11 · 1068 阅读 · 0 评论 -
Mac上Hive环境搭建
本文介绍在Mac上搭建Hive环境。建议首先配置好Hadoop,搭建与配置可以参考我之前的博文Mac Hadoop的安装与配置。当然你也可以选择使用Docker搭建环境,本文不作介绍。安装对于MacOs,推荐使用HomeBrew安装hive,一步到位。$ brew install hive创建元数据库Hive默认用derby作为元数据库。这里我们用mysql来存储元数据,...转载 2020-02-11 18:41:20 · 571 阅读 · 0 评论 -
【HIVE】Hive 环境搭建遇到的问题
1、hive版本 1.2.2太低,hadoop版本 2.7.7Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient...原创 2020-02-11 12:52:34 · 805 阅读 · 0 评论