自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 hive视图和物化视图

show create table 视图名称;

2024-05-30 16:20:53 1123

原创 hive的分区和分桶

通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。上述示例中,将数据插入到my_table表的dt='2023-01-01'、country='China'的分区中。提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。

2024-05-25 18:47:10 724

原创 hive元数据和表

由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。比如该表不存在,当启动Hive-Cli时候,就会报错”Table ‘hive.version’ doesn’t exist”。主要有TBLS、TABLE_PARAMS、TBL_PRIVS,这三张表通过TBL_ID关联。该表存储Hive存储的属性信息,在创建表时候使用。该表存储序列化使用的类信息。

2024-05-25 18:44:05 942

原创 hive的内部表和外部表

Hive有两种类型的表:Managed Table 内部表External Table 外部表下面我们详细介绍这两种表.。

2024-05-25 18:39:16 439

原创 hive的内置函数

总的来说,Hive的内置函数和UDF提供了强大的数据处理能力,使得用户能够灵活地处理和分析数据,满足各种数据分析和挖掘的需求。),允许用户根据需要自定义函数,以扩展Hive的功能。这些函数可以帮助用户简化数据处理和分析的流程。提供了丰富的内置函数,用于处理数据的各种操作,包括但不限于。等语言编写UDF,实现更复杂的数据处理逻辑。此外,Hive还支持用户定义函数(

2024-05-21 12:51:11 316

原创 Hive中的窗口函数

窗口函数提供了一种处理结果集的方式,不仅能够对整个结果集进行计算,还可以根据指定的窗口(Window)对结果集进行分组并计算。窗口由窗口函数的ORDER BY子句和窗口定义(PARTITION BY子句和窗口范围)共同决定。常用的窗口函数包括:ROW_NUMBER、RANK、DENSE_RANK、NTILE、LAG、LEAD、FIRST_VALUE、LAST_VALUE等。

2024-05-07 12:45:48 271

原创 hive分组与聚合

分组是将具有相同属性的数据分为一组的操作。在Hive中,分组操作可以基于单个字段或多个字段进行。在Hive中,聚合函数是用于对一组数值进行计算的函数,它们可以对一列数据进行求和、计数、平均值、最大值、最小值等操作。常见的聚合函数包括SUM、COUNT、AVG、MAX、MIN等。

2024-05-07 12:44:53 405

原创 hive数据排序

当分区字段和排序字段相同Cluster By可以简化Distribute By+Sort By 的SQL写法,也就是说当Distribute By和Sort By 字段相同时,可以使用Cluster By代替Distribute By和Sort By。Cluster By 当Sistribute By和Sort By 字段相同时,可以使用Cluster By代替Distribute By和Sort By,但是Cluster By默认是升序,不能指定排序方向。升序:asc ,不需要指定,默认是升序。

2024-04-23 13:16:36 540 2

原创 hive关联操作

关联查询可以是内连接(INNER JOIN)、左外连接(LEFT OUTER JOIN)、右外连接(RIGHT OUTER JOIN)或全外连接(FULL OUTER JOIN)。2.all、distinct子句,all与distinct选项表示是否返回重复行,默认是all,即返回所有匹配的行。4.公共表表达式,可以表示一个临时的结果集,该表通过一个简单的查询指定,只要在cte语句范围内均可共享该临时表。关联查询:对多表进行联合查询,主要通过join语句将两个或者多个表中的行组合在一起进行查询。

2024-04-23 12:58:38 457 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除