Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

最新推荐文章于 2024-09-30 00:01:30 发布

原创

最新推荐文章于 2024-09-30 00:01:30 发布 · 796 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #数据仓库 #spark

前言

离线数仓之前的主力工具是hive，有一些处理需要写udf实现，当hive sql迁移成spark sql时。之前的udf函数该怎么办呢，本文为自测并总结。
结果写在前面，hive jar包可以直接复用，不用重新编写。

环境： spark2.11，hive2.3.6，hadoop2.7.2

解决方案

首先，hive的元数据一般生产我们都会存在mysql当时，所以设想：spark on hive也是使用hive的元数据，可以看到hive的表，那如果将hive的udf注册成hive的永久函数，spark on hive直接访问能不能使用呢？

步骤1：hive udf准备

打包hive udf，上传至hdfs：/udf目录

hadoop fs -mkdir -p /test/hive/udf
hadoop fs -put hive-function-1.0-SNAPSHOT.jar /test/hive/udf

步骤2：注册永久hive函数

进入hive shell

create function my_udf_test as 'com.iszhaoy.udf.StringUtilsUDF' using jar 'hdfs:/test/hive/udf/hive-function-1.0-

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

俩只猴

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

从Hive迁移到SparkSQL，有赞的大数据实践

02-24

有赞数据平台从2017年上半年开始，逐步使用SparkSQL替代Hive执行离线任务，目前SparkSQL每天的运行作业数量5000个，占离线作业数目的55%，消耗的cpu资源占集群总资源的50%左右。本文介绍由SparkSQL替换Hive过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL在有赞的技术演进。从Hive到SparkSQL的迁移之路。首先介绍一下有赞大数据平台总体架构：如下图所示，底层是数据导入部分，其中DataY区别于开源届的全量导入导出工具alibaba/DataX，是有赞内部研发的离线Mysql增量导入Hive的工具，把Hiv

Hive SQL迁移Spark SQL在滴滴的实践

DiDi_Tech的博客

01-25

1775

桔妹导读：在滴滴SQL任务从Hive迁移到Spark后，Spark SQL任务占比提升至85%，任务运行时间节省40%，运行任务需要的计算资源节省21%，内存资源节省49%。在迁移过程中...

参与评论您还未登录，请先登录后发表或查看评论

Hive SQL迁移 Spark SQL 在网易传媒的实践

过往记忆大数据

10-19

1319

引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sp...

从Hive平滑过渡到Spark SQL

m0_56525833的博客

10-24

1082

从hive过渡到SparkSQL

Hive Sql 迁移到 Spark Sql 问题集合

xw514124202的博客

12-16

2173

问题集合 1、ES外部表格式不同 hive spark sql 2、元数据更新 refreshtable REFRESH TABLE table_name 3、Caused by: java.lang.NoClassDefFoundError: jodd/datetime/JDateTime 4、Error in query: nondeterministic expressions are o...

Hive向SparkSQL迁移总结