m0_75280426-优快云博客

原创 hive视图和物化视图

show create table 视图名称;

2024-05-30 16:20:53 1379

通过分区，可以将数据按照特定的维度进行组织，提高查询效率和数据管理的灵活性。通过分桶，可以将数据均匀地分布到不同的桶中，提高查询的并行度和性能。上述示例中，将数据插入到my_table表的dt='2023-01-01'、country='China'的分区中。提高查询性能：通过分区，可以将数据按照特定的列值进行划分，使得查询只需要扫描特定分区的数据，减少了全表扫描的开销。提高查询性能：通过分桶，可以将数据均匀地分布到不同的桶中，使得查询可以并行地处理不同的桶，提高查询性能。

2024-05-25 18:47:10 776

原创 hive元数据和表

由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。比如该表不存在，当启动Hive-Cli时候，就会报错”Table ‘hive.version’ doesn’t exist”。主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。该表存储Hive存储的属性信息，在创建表时候使用。该表存储序列化使用的类信息。

2024-05-25 18:44:05 1001

原创 hive的内部表和外部表

Hive有两种类型的表:Managed Table 内部表External Table 外部表下面我们详细介绍这两种表．。

2024-05-25 18:39:16 516

原创 hive的内置函数

总的来说，Hive的内置函数和UDF提供了强大的数据处理能力，使得用户能够灵活地处理和分析数据，满足各种数据分析和挖掘的需求。），允许用户根据需要自定义函数，以扩展Hive的功能。这些函数可以帮助用户简化数据处理和分析的流程。提供了丰富的内置函数，用于处理数据的各种操作，包括但不限于。等语言编写UDF，实现更复杂的数据处理逻辑。此外，Hive还支持用户定义函数（

2024-05-21 12:51:11 381

原创 Hive中的窗口函数

窗口函数提供了一种处理结果集的方式，不仅能够对整个结果集进行计算，还可以根据指定的窗口（Window）对结果集进行分组并计算。窗口由窗口函数的ORDER BY子句和窗口定义（PARTITION BY子句和窗口范围）共同决定。常用的窗口函数包括：ROW_NUMBER、RANK、DENSE_RANK、NTILE、LAG、LEAD、FIRST_VALUE、LAST_VALUE等。

2024-05-07 12:45:48 355

原创 hive分组与聚合

分组是将具有相同属性的数据分为一组的操作。在Hive中，分组操作可以基于单个字段或多个字段进行。在Hive中，聚合函数是用于对一组数值进行计算的函数，它们可以对一列数据进行求和、计数、平均值、最大值、最小值等操作。常见的聚合函数包括SUM、COUNT、AVG、MAX、MIN等。

2024-05-07 12:44:53 623

原创 hive数据排序

当分区字段和排序字段相同Cluster By可以简化Distribute By+Sort By 的SQL写法，也就是说当Distribute By和Sort By 字段相同时，可以使用Cluster By代替Distribute By和Sort By。Cluster By 当Sistribute By和Sort By 字段相同时，可以使用Cluster By代替Distribute By和Sort By,但是Cluster By默认是升序，不能指定排序方向。升序：asc ，不需要指定，默认是升序。

2024-04-23 13:16:36 740 2

原创 hive关联操作

关联查询可以是内连接（INNER JOIN）、左外连接（LEFT OUTER JOIN）、右外连接（RIGHT OUTER JOIN）或全外连接（FULL OUTER JOIN）。2.all、distinct子句，all与distinct选项表示是否返回重复行，默认是all，即返回所有匹配的行。4.公共表表达式，可以表示一个临时的结果集，该表通过一个简单的查询指定，只要在cte语句范围内均可共享该临时表。关联查询：对多表进行联合查询，主要通过join语句将两个或者多个表中的行组合在一起进行查询。

2024-04-23 12:58:38 582 2

m0_75280426的博客