分类:
- UDF:一行对一行的映射(一行进来,一行出去)
- UDAF:many to one 多进一出
- UDTF:Table-generating 一进多出 如lateral view explode()
UDF的临时函数只对当前session有效

重要的表:
version:

只能有且只有一条记录,否则hive启动不起来;
spark里面有天坑!
DBS:

数据库在hdfs上面的位置
TBLS

SBS:

数据表的压缩类型
COLUMNS_V2

PARTITIONS
分区表
本文深入解析了Hive与Spark中UDF(用户定义函数)、UDAF(聚合函数)及UDTF(表生成函数)的区别与应用场景,强调了UDF作为临时函数的特性及其在session中的有效性。同时,文章还介绍了几个关键的内部表,如version表的唯一记录要求,DBS表用于存储数据库在HDFS上的位置,以及SBS表记录的数据表压缩类型等。
706

被折叠的 条评论
为什么被折叠?



