spark sql 05

本文介绍了Hive元数据存储在MySQL中的方式,包括DBS、VERSION、TBLS等表的作用及关联,还详细讲解了Hive join的不同类型,并演示了如何创建和使用UDF。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • hive元数据metastore
    主要存储在mysql数据库中
    DBS表:存的是数据库信息
    VERSION表:版本,只有一条数据才能启动hive
    TBLS表:存储的表的信息 DB_ID关联
    TABLE_PARAMS表:TBL_ID关联,存储表的配置信息
    COLUMNS_V2表:列信息
    PARTITIONS表:分区信息
    表与表之间都会有关联

  • join
    默认情况下,hive的join为Common Join/Reduce Join/Shuffle Join
    hive.auto.convert.join开启变为Map Join/Boardcast Join

  • UDF
    UDF 一进一出(常用)
    UDAF 多进一出
    UDTF 一进多出

    创建UDF过程:

    package com.kaola.bd;
    
    import org.apache.hadoop.hive.ql.exec.UDF;
    
    public class rubyUDF extends UDF{
    
        public String evaluate(String name){
            return "ruby"+name;
        }
    }
    
    

    打包放到服务器中或者hdfs中
    有两种生成function的方式:

    add jar /home/hadoop/lib/g5-spark-1.0.jar;	
    CREATE TEMPORARY FUNCTION ruoze_welcome AS 'com.kaola.bd.rubyUDF';
    
    CREATE FUNCTION kaola AS 'com.kaola.bd.rubyUDF'
    USING JAR 'hdfs://192.168.2.151:8020/user/datas/original-g5-spark-1.0.jar';
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值