-
hive元数据metastore
主要存储在mysql数据库中
DBS表:存的是数据库信息
VERSION表:版本,只有一条数据才能启动hive
TBLS表:存储的表的信息 DB_ID关联
TABLE_PARAMS表:TBL_ID关联,存储表的配置信息
COLUMNS_V2表:列信息
PARTITIONS表:分区信息
表与表之间都会有关联 -
join
默认情况下,hive的join为Common Join/Reduce Join/Shuffle Join
将hive.auto.convert.join开启变为Map Join/Boardcast Join -
UDF
UDF 一进一出(常用)
UDAF 多进一出
UDTF 一进多出创建UDF过程:
package com.kaola.bd; import org.apache.hadoop.hive.ql.exec.UDF; public class rubyUDF extends UDF{ public String evaluate(String name){ return "ruby"+name; } }
打包放到服务器中或者hdfs中
有两种生成function的方式:add jar /home/hadoop/lib/g5-spark-1.0.jar; CREATE TEMPORARY FUNCTION ruoze_welcome AS 'com.kaola.bd.rubyUDF';
CREATE FUNCTION kaola AS 'com.kaola.bd.rubyUDF' USING JAR 'hdfs://192.168.2.151:8020/user/datas/original-g5-spark-1.0.jar';
spark sql 05
最新推荐文章于 2022-06-09 10:41:31 发布