Hive UDF初探

原创已于 2023-06-01 10:56:13 修改 · 137 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库 #大数据

于 2016-05-05 18:03:00 首次发布

大数据见微专栏收录该内容

39 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了在Hive中为解决广告日志曝光PV计算问题，如何创建UDF来判断字段是否有标签。内容涵盖UDF的基本类型，如UDF、UDAF和UDTF，以及如何实现一个判断空标签的GenericUDF，并提供了编译和添加到Hive的步骤。

1. 引言

在前一篇中，解决了Hive表中复杂数据结构平铺化以导入Kylin的问题，但是平铺之后计算广告日志的曝光PV是翻倍的，因为一个用户对应于多个标签。所以，为了计算曝光PV，我们得另外创建视图。

分析需求：

每个DSP上的曝光PV，标签覆盖的曝光PV；
累计曝光PV，累计标签覆盖曝光PV

相当于cube(dsp, tag) + measure(pv)，HiveQL如下：

select dsp, tag, count(*) as pv
from ad_view
where view = 'view' and day_time between '2016-04-18' and '2016-04-24'
group by dsp, tag with cube;

现在问题来了：如何将原始表中的tags array<struct<tag:string,label:string,src:string>> 转换成有标签(taged)、无标签(empty)呢？显而易见的办法，为字段tags写一个UDF来判断是否有标签。

2.

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浅唱书令

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

大数据学习指南从入门到精通

Lansonli（蓝深李）的博客

05-21

2万+

利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的为什么选择学习大数据开发，不选择Java开发？借棋弈做比喻，智商高的不要选择五子琪，要选择围棋，它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂，能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此，能让你的职业生涯走得更远，少走弯路。

大数据讲课笔记2.3 初探Hadoop世界

howard2005的专栏

10-04

1182

1. 了解Hadoop的发展历史； 2. 了解Hadoop的版本情况； 3. 掌握Hadoop的生态体系

参与评论您还未登录，请先登录后发表或查看评论

Hive初探

wangato的博客

04-01

9196

Apache Hive

hive之数据类型初探

wh_springer的专栏

06-19

732

前段时间在做一个将oralce代码转hive代码开发时，遇到了一个问题，问题描述如下： (A) Hive: Select concat(round(1/3,4)*100,'%') from v_book_all_info_ft limit1; Output：33.33% Oracle: select concat(round(1/3,4)*100,'%') from dual;

spark sql on hive初探

sumo2010的博客

01-04

765

前一段时间由于shark项目停止更新，sql on spark拆分为两个方向，一个是spark sql on hive,另一个是hive on spark。hive on spark达到可用状态估计还要等很久的时间，所以打算试用下spark sql on hive，用来逐步替代目前mr on hive的工作。当前试用的版本是spark1.0.0,如果要支持hive,必须重新进行编译，编译的

Hive函数宝典：内置函数与UDF初探，一文掌握数据处理利器

热门推荐

OopsOutOfMemory盛利的博客

07-09

1万+

Spark1.1发布后会支持Spark SQL CLI ， Spark SQL的CLI会要求被连接到一个Hive Thrift Server上，来实现类似hive shell的功能。

第1章初探大数据

weixin_38492276的博客

08-25

698

1、1导学功能实现统计imooc（慕课网）主站最受欢迎的课程/手记的Top N访问次数按地市统计imooc主站最受欢迎的Top N课程按流量统计imocc主站最受欢迎的Top N课程 大数据的到来任职要求 .熟悉Linux操作系统，熟悉Linux shell 编程 .熟悉Java或者scala语言，具有一年以上实际开发经验 .熟悉spark sql 或 ...

【DataFrame初探】：结构化数据处理，Spark的杀手锏

[【DataFrame初探】：结构化数据处理，Spark的杀手锏](https://dezyre.gumlet.io/images/blog/pyspark-dataframe-cheatsheet/Selecting_DataFrame_columns_in_PySpark.webp?w=376&dpr=2.6) # 摘要 DataFrame作为一...

Hadoop初探：大数据处理的开端

# 1. 简介 ## 1.1 什么是Hadoop Hadoop是一个开源的分布式计算框架，可用于存储和处理大规模数据集。它由Apache基金会开发，具有高可靠性、高扩展性和高效性的特点。Hadoop通过将数据分布式存储在集群中的多台机器...

【计算机图形学】四、B样条曲线的生成

听雨草堂

01-18

6182

1.算法 2. 源代码 #include "stdafx.h" #include "GL/glut.h" #include "stdlib.h" void init() { glClearColor(1.0,1.0,1.0,0.0); glMatrixMode(GL_PROJECTION); gluOrtho2D(0.0,600.0,0.0,400.

【Python】网络爬虫（一）：pyquery一瞥

听雨草堂

04-29

4811

1.pyquery简介 python中的pyquery模块语法与jquery相近，可用来解析HTML文件。官方文档地址：https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素，使得解析HTML文件极为方便。 2.实例 2.1 爬取豆瓣电影页面中主演右键chrome中的审查元素，观察到主演的标

【计算机图形学】三、bezier曲线的生成

听雨草堂

01-18

4252

1. 算法 2. 源代码 #include "stdafx.h" #include "GL/glut.h" #include "stdlib.h" #include "math.h" void init() { glClearColor(1.0,1.0,1.0,0.0); glMatrixMode(GL_PROJECTION); gluOrtho2D(0.0

【Hadoop】数据序列化系统Avro

听雨草堂

08-31

3658

Avro简介 schema 文件组成声明代码测试代码序列化与反序列化 specific generic 参考文献Avro简介Avro是由Doug Cutting（Hadoop之父）创建的数据序列化系统，旨在解决Writeable类型的不足：缺乏语言的可移植性。为了支持跨语言，Avro的schema与语言的模式无关。有关Avro的更多特性请参看官方文档 1。Avro文件的读写是依据schema而

【Hadoop】Avro源码分析（二）：反序列化之Generic

听雨草堂

10-10

3235

文件读取类图继承 DataFileStream DataFileReader Header与Data Block读取初始化Header Data Block读取本文着重研究avro反序列化的Generic方式，先从下面这段读取avro文件的代码开始讲起。File file = new File("e://twitter.avro"); DatumReader dat

【计算机图形学】二、椭圆的生成

听雨草堂

01-18

2242

1. 算法 2. 源代码 #include "stdafx.h" #include "GL/glut.h" #include "stdlib.h" void init() { glClearColor(1.0,1.0,1.0,0.0); glMatrixMode(GL_PROJECTION); gluOrtho2D(0.0,600.0,0.0,400

【Hadoop】Avro源码分析（一）：Schema

听雨草堂

09-03

2120

抽象类Schema Type 类图原生类型Schema的创建保留字段类RecordSchema Name与Names 类Field RecordShema的定义 toString的实现测试代码有关Avro的schema介绍已经在前一篇中给出了。本篇主要分析org.apache.avro.schema.java源码，以此深入了解schema。抽象类Schemaschema是abstract c

Hive UDF函数实现简单数据脱敏技巧

最后，关于给定信息中的【压缩包子文件的文件名称列表】: "hiveUDF"。这里可能是指要将包含Hive UDF代码的jar包命名为"hiveUDF.jar"。这个文件可以在Hive环境中通过add jar命令进行加载，从而让Hive能够识别并执行...