自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Hive 视图的基本操作

其中sy320是数据库名字,orders_products_items_view是你要创建的视图名字,这些都是来源不同的表,用join根据每个表的id进行连接。3.查看视图详情信息。

2024-06-23 20:35:21 232

原创 Hive 视图概念与常用操作

Hive 中的视图(View)是一个虚拟表,它基于一个或多个表的查询结果。视图不存储数据,它只存储查询语句的定义。当你查询视图时,Hive 会根据视图的定义执行查询,并返回结果。视图可以简化复杂的查询,提供数据的安全性(因为用户只能看到视图定义中的数据),以及提供数据的逻辑抽象。Hive 不直接支持视图的修改(ALTER VIEW),但你可以先删除旧视图,然后创建一个新视图来达到修改的目的。对视图的查询实际上是执行了视图定义中的查询语句;视图是虚拟的,不存储数据;视图的创建基于已有的表或视图;

2024-06-23 20:34:47 635

原创 Hive 窗口函数

我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。Over子句之后第一个提到的就是Partition By.Partition By子句也可以称为查询分区子句,非常类似于Group By,都是将数据按照边界值分组,而Over之前的函数在每一个分组之内进行,如果超出了分组,则函数会重新计算.

2024-06-18 23:04:42 449

原创 hive产生背景与架构设计

Hive Client Hive客户端,可通过Java、Python等语言连接Hive并进行与RDBMS类似的SQL查询。包含Hive的数据存储与计算的内容,Hive元数据存储在RDBMS中,数据存储在HDFS。可扩展,Hive 可以自由 展集群规模在生产环境中,Hive 有如下优势。Hive服务端,客户端必须通过服务端与Hive交互,主要包括。延展性,Hive 支持自定义函数,用户可根据需求自定义。延展性,Hive支持自定义函数,用户可根据需求自定义。Hive 与SQL有着相似的语法,大大提高开发效率。

2024-06-18 22:57:44 377

原创 hive分区和分桶

查询时Hive自动过滤掉不用于提高性能的分区。根据“桶列”的哈希函数将数据进行分桶。3.Hive操作分区/分桶类型及设置。查询时使用“分区”列和常规列类似。分桶是相对分区进行更细粒度的划分。2.Hive分区表/分桶表描述。1.Hive定义分区/分桶表。分区列的值将表划分为文件夹。Hive分区表描述回顾。Hive分桶表描述回顾。#使用动态分区需设置。#使用动态分桶需设置。4、hive操作分区。

2024-06-18 22:40:59 220

原创 hive高级操作——排序

语法上SORT BY 与ORDER BY 相似,但从作用上看,ORDER BY可以看作是 SORT BY 的一个特例:当 SORT BY 的Reducer 数目设置1时,等同于ORDER BY。所以在 strict(hive.mapred.mode=strict,默认是 nonstrict) 模式下,Hive 对 ORDER BY进行了限制,要求 ORDER BY 子句后必须跟随 “LIMIT”子句,以防止单个 Reducer处理时间过长。ORDER BY 性能较差,应尽量在排序前对数据进行过滤。

2024-06-18 22:31:06 535

原创 多表联合查询

HQL JOIN 类似于 SQL JOIN,但其仅支持等值连接,具体包括内连接(INNER JOIN)、外连接(OUTER JOIN)与交叉连接(CROSS JOIN)。全外连接结合了左连接和右连接的结果,即:对左表而言,右表中不符合连接条件的记录显示为 NULL:对右表而言,左表中不符合连接条件的记录显示为 NULL。外连接分为3类:左外连接(LEFT OUTER JOIN)、右外连接 (RIGHIT OUTER JOIN)和全外连接(FULL OUTER JOIN)。左外连接简称左连接。

2024-06-18 22:22:36 377

原创 hive高级操作

公共表表达式(Common Table Expressions,CTE)可以表示一个临时的结果集(表),该表通过一个简单的查询指定,只要在CTE 语句范围内均可共享该临时表。Hive SELECT 语句用于对表进行查询,即按照规定的语法规则从表中选取数据,并将查询结果保存在结果表中。Hive SELECT 语句支持使用正则表达式指定列名称,凡是符合正则表达式规则的列名将被作为结果集中的一列。> 子查询中的列必须有唯一的名称,并且在外部查询中可以引用。Hive 支持的常用条件表达式的用法介绍如表所示。

2024-06-18 22:13:49 1609

原创 hive元数据

按元数据存储位置划分,单用户与多用户模式均属于本地存储,远程服务模式属于远端存储。前面提到 Hive 中有两类数据:真实数据和元数据。和关系型数据库一样,元数据可以看作是描述数据的数据,包括 Hive 表的数据库名、表名、字段名称与类型、分区字段与类型等。> PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS: 存储分区相关信息。> SDS、SD_PARAMS、SERDES、SERDE_PARAMS:存储 Hive 文件存储相关信息。

2024-06-18 22:03:40 231

原创 hive DDL操作

Hive DDL 用于定义 Hive 数据库模式,其命令包括 create、drop、alter、truncate、show和 describe 等,主要是对数据库和表进行创建、修改、删除等操作。默认情况下使用 RESTRICT 删除数据库。如果数据库非空,则使用 RESTRICT 删除数据库将会失败,此时须使用 CASCADE 级联删除数据库。除了对数据库和表的创建和修改外,DDL还包括其他常用操作,具体介绍如表2-3所示。修改表也括重命名、添加列、更新列等操作。表重命名的语法如下。

2024-06-17 21:47:42 206

原创 hive数据库及表操作

Hive 具有4种带符号的整数类型:TINYINT、SMALLINT、INT、BIGINT,分别对应 Java 中的byte、short、int、long,字节长度分别为1、2、4、8字节。VARCHAR(20)与 CHAR(20)的区别是:如果存入的字符串长度为10,则VARCHAR(20)占用实际字符串长度为10,而 CHAR(20)占用实际字符串长度仍为20,未使用的空间将会用空格填充。DATE 类型用于描述特定的年月日,以 yyy-MIM-dd 格式表示,例如2018-12-12。

2024-06-17 21:40:37 1028

原创 hive 环境配置

Docker Desktop 是适用于 Windows 的 Docker 桌面,是 Docker 设计用于在 Windows 10 上运行。它是一 个本地 Windows 应用程序,为构建、交付和运行 dockerized 应用程序提供易于使用的开发环境。Windows 版 Docker 桌面支持运行 Linux 和 Windows Docker 容器。Docker Desktop for Windows 使用 Windows 原生 Hyper-V 虚拟化和网络,是在 Windows 上开发。

2024-06-17 21:06:38 342

原创 掌握hive数据存储模型

RCFILE 遵循“先水平划分,再垂直划分”的设计理念:首先把 Hive 表水平切分成多个行组,保证同一行的数据位于同一节点,其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。外部表指向已经存在 HDFS 中的数据,与内部表元数据组织是相同的,但其数据存放位置是任意的。RCFILE 遵循“先水平划分,再垂直划分”的设计理念:首先把 Hive 表水平切分成多个行组,保证同一行的数据位于同一节点,其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。

2024-06-17 21:04:57 1498

原创 hive工作流程

HQL 通过 CLI、JDBC 客户端、HWI 接口提交,通过 Compiler 编译并运用 Metastore中的数据进行类型检测和语法分析,进而得到执行计划,产生以有向无环图(DirectedAcyclic Graph,DAG)描述的一系列MapReduce 作业;DAG描述了作业之间的依赖关系,执行引擎按照作业的依赖关系将作业提交至 Hadoop 执行。Hive 的具体工作流程如图1.3 所示。Hive 工作流程中各步骤的详细描述如表所示。

2024-06-17 20:53:21 251

原创 Hive入门

但是使用MapReduce 进行数据处理的门槛比较高,传统的数据库开发、管理和运维的人员必须掌握Java 面向 MapReduce AP编程并具备一定的编程基础后,才能使用 MapReduce 处理数据。Hive 具有一系列功能,可以进行数据提取、转化和加载,是一种可以查询和分析存储在Hadoop 中的大规模数据的工具。Hive 是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供 SQL 查询功能,同时可以将 SQL 语句转化为 MapReduce 作业进行运行。

2024-06-17 20:49:17 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除