- 博客(11)
- 收藏
- 关注
原创 Hive 窗口函数
窗口函数通常与聚合函数结合使用,但它们的区别在于窗口函数会为结果集中的每一行返回一个值,而聚合函数会为整个结果集返回一个单一的值。·FIRST_VALUE() 和 LAST_VALUE() - 返回窗口中的第一行或最后一行的值。·DENSE_RANK() - 为结果集中的每一行分配一个排名,不考虑重复值的间隙。·SUM(), AVG(), MIN(), MAX() - 在窗口内计算聚合值。·LEAD() 和 LAG() - 访问结果集中当前行的前一行或后一行的值。
2024-06-04 14:39:18
508
原创 Hive 窗口函数
concat(str1, str2, ...): 连接两个或多个字符串。·length(string A): 返回字符串A的长度。·upper(string A): 将字符串A转换为大写。·lower(string A): 将字符串A转换为小写。·trim(string A): 去除字符串A的前导和尾随空格。·substring(string A, int start, int len): 从字符串A中提取子字符串。
2024-06-04 14:38:04
1289
原创 Hive 数据排序
CLUSTER BY是DISTRIBUTE BY和SORT BY的组合,它根据指定的列进行分发和排序。在这个例子中,数据首先按照department列的值进行分发到不同的reducer,然后在每个reducer内部,数据再根据department和salary列的值进行排序。这意味着如果查询涉及到多个reducer,则每个reducer的输出会分别排序,但整个输出可能不是全局排序的。这会将数据按照department列的值分发到reducer,并在每个reducer内部按照department进行排序。
2024-06-04 14:36:09
275
原创 Hive数据关联操作
(一).WHERE 子句(二).Hive ALL、DISTINCT、LIMIT子句ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行DISTINCT子句可以返回删除结果集中的重复行LIMIT子句用于限制SELECT语句返回的行数(三)嵌套查询 相关操作 ·内连接(inner join)select s.*,c.* from students s inner join class c on s.class_id=c.cla
2024-06-04 14:34:44
262
1
原创 Hive元数据的定义与操作存储
仅仅获取元数据而不操作的话,使用hive-metastore组件更加合适。·hive-metastore,通过访问metastore服务实现。·hive-metastore通过面向对象的方式访问数据库数据。2、新建数据库”hive_db”,新建表“student”·Hive为Java环境提供两种方式对元数据进行访问。4、查询数据库“hive_db”相关元数据信息。5、查询表“student”相关元数据信息。(一)操作1—查看Hive相关元数据。·新建表student。
2024-06-04 14:32:16
179
原创 元数据概念与表的结构
在Hive中,元数据(Metastore)是关于数据仓库中数据的数据,用于描述数据的结构和位置信息。Hive使用元数据来提供表、字段、数据库以及数据之间的映射信息。元数据存储在关系型数据库中,如Derby、MySQL等。2、元数据包括以下信息:表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录、3、Hive元数据存储在RDBMS中,有三种存储模式。·元数据存储在Derby数据库,是默认的存储方式。元数据存储了表的数据所在的HDFS目录。元数据存储了表的存储格式和分隔符。
2024-06-04 14:31:38
946
原创 Hive 分区与分桶
在Hive中,分区是将表的数据按照某个列的值进行划分和存储的一种方式。1、提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。1、提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。3、支持数据生命周期管理:可以根据数据的时间或其他维度进行分区,方便数据的归档和清理。2、管理数据更加灵活:可以根据业务需求对数据进行分区,方便数据的管理和维护。(二)Hive分桶:动态分桶(使用动态分桶需设置)
2024-06-04 14:29:34
468
原创 Hive 内部与外部表
外部表被drop后,表的metadata会被删除,但是data不会被删除。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。Hive中的表可以分为内部表(managed table)和外部表(external table)。2、删除表会删除表的元数据(metadata),但不会删除表数据(data)。3、删除表会删除表的元数据(metadata)和表数据(data)。1、被external修饰的表。
2024-06-04 14:28:10
968
1
原创 Hive 库表操作
1、创建数据库:2、查看所有数据库:3、选择数据库:4、创建表:...5、查看当前数据库中的表:6、查看表结构:7、删除表:8、删除数据库:
2024-06-04 14:26:27
411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人