- 博客(9)
- 收藏
- 关注
原创 hive的分区和分桶
通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。上述示例中,将数据插入到my_table表的dt='2023-01-01'、country='China'的分区中。提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
2024-05-25 18:47:10
724
原创 hive元数据和表
由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。比如该表不存在,当启动Hive-Cli时候,就会报错”Table ‘hive.version’ doesn’t exist”。主要有TBLS、TABLE_PARAMS、TBL_PRIVS,这三张表通过TBL_ID关联。该表存储Hive存储的属性信息,在创建表时候使用。该表存储序列化使用的类信息。
2024-05-25 18:44:05
942
原创 hive的内部表和外部表
Hive有两种类型的表:Managed Table 内部表External Table 外部表下面我们详细介绍这两种表.。
2024-05-25 18:39:16
439
原创 hive的内置函数
总的来说,Hive的内置函数和UDF提供了强大的数据处理能力,使得用户能够灵活地处理和分析数据,满足各种数据分析和挖掘的需求。),允许用户根据需要自定义函数,以扩展Hive的功能。这些函数可以帮助用户简化数据处理和分析的流程。提供了丰富的内置函数,用于处理数据的各种操作,包括但不限于。等语言编写UDF,实现更复杂的数据处理逻辑。此外,Hive还支持用户定义函数(
2024-05-21 12:51:11
316
原创 Hive中的窗口函数
窗口函数提供了一种处理结果集的方式,不仅能够对整个结果集进行计算,还可以根据指定的窗口(Window)对结果集进行分组并计算。窗口由窗口函数的ORDER BY子句和窗口定义(PARTITION BY子句和窗口范围)共同决定。常用的窗口函数包括:ROW_NUMBER、RANK、DENSE_RANK、NTILE、LAG、LEAD、FIRST_VALUE、LAST_VALUE等。
2024-05-07 12:45:48
271
原创 hive分组与聚合
分组是将具有相同属性的数据分为一组的操作。在Hive中,分组操作可以基于单个字段或多个字段进行。在Hive中,聚合函数是用于对一组数值进行计算的函数,它们可以对一列数据进行求和、计数、平均值、最大值、最小值等操作。常见的聚合函数包括SUM、COUNT、AVG、MAX、MIN等。
2024-05-07 12:44:53
405
原创 hive数据排序
当分区字段和排序字段相同Cluster By可以简化Distribute By+Sort By 的SQL写法,也就是说当Distribute By和Sort By 字段相同时,可以使用Cluster By代替Distribute By和Sort By。Cluster By 当Sistribute By和Sort By 字段相同时,可以使用Cluster By代替Distribute By和Sort By,但是Cluster By默认是升序,不能指定排序方向。升序:asc ,不需要指定,默认是升序。
2024-04-23 13:16:36
540
2
原创 hive关联操作
关联查询可以是内连接(INNER JOIN)、左外连接(LEFT OUTER JOIN)、右外连接(RIGHT OUTER JOIN)或全外连接(FULL OUTER JOIN)。2.all、distinct子句,all与distinct选项表示是否返回重复行,默认是all,即返回所有匹配的行。4.公共表表达式,可以表示一个临时的结果集,该表通过一个简单的查询指定,只要在cte语句范围内均可共享该临时表。关联查询:对多表进行联合查询,主要通过join语句将两个或者多个表中的行组合在一起进行查询。
2024-04-23 12:58:38
457
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人