hive数据分析003-transform应用

炽天使YRLT

已于 2022-05-06 13:15:33 修改

阅读量737

点赞数

分类专栏： hive学习之路文章标签： hive

于 2022-04-26 16:14:45 首次发布

本文链接：https://blog.youkuaiyun.com/eyexin2018/article/details/124405699

版权

hive学习之路专栏收录该内容

9 篇文章

订阅专栏

transform

Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的功能又不想写 UDF 的情况，脚本一般都是python写的。
二、案例操作
1.数据文件内容

vi transform.txt
steven:100;steven:90;steven:99^567^22
ray:90;ray:98^456^30
Tom:81^222^33

2.清洗后到数据库的数据格式如下:

steven    100    567     22
steven    90      567     22
steven    99      567     22
ray       90      456    30
ray       98      456    30
Tom       81      222    33

3.创建表存储原始数据

create table u_data(
col1 string, 
code int, 
age int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' 
STORED AS TEXTFILE;

4.加载数据

load data local inpath '/home/hadoop/data/transform.txt' overwrite into table u_data;

3.编写transform脚本

vi u.py
#!/usr/bin/python
import sys
for line in sys.stdin:
 values = line.split()
 tmp = values[0]
 key_values = tmp.split(";")
 for kv in key_values:
  k = kv.split(":")[0]
  v = kv.split(":")[1]
  print '\t'.join([k,v,values[1],values[2]])

4.脚本部署位置：

/home/hadoop/data/u.py

添加执行路径

add file /home/datechange.py;

5.测试

select transform(u.col1, u.code, u.age) using 'python u.py' as (col1, col2, col3, col4) from (select * from u_data) as u;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

炽天使YRLT

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive transform shell脚本运行

王浩的专栏

06-08

1926

hive transform shell脚本运行hive transform是将脚本嵌入到hive的sql搜索当中。由于在hive中，sql相当于mapreduce,因此相当于在mapreduce的过程中再加入一个处理。实例分析需求：在hive中搜索数据，搜索过程中看是否数据在某个集合中。描述：在hive的sql搜索过程中，对搜索成功的每一条数据，输入到脚本中，然后再输出。过程：将需要的文

大数据-玩转数据-hive简单应用

s_unbo的博客

01-03

425

大数据-玩转数据-hive下载安装一、介绍： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。各组件的基本功能 1.）用户接口主要由三个：CLI、JDBC/ODBC和WebGUI。其中，CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。 2.）元数据存储：Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是

参与评论您还未登录，请先登录后发表或查看评论

Hive的Transform功能

weixin_30575309的博客

06-13

605

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。例如，按日期统计每天出现的uid数，通常用如下的SQL SELECT date, count(uid) FROM xxx GROUP BY date 但是，如果我想在reduce阶段对每天的uid形成一个列表，进行排序并输出，这在Hive中没有现成的功能。那么，可以自写脚...

Hive的TRANSFORM

LMR的博客

05-26

9282

转载自https://www.cnblogs.com/qingyunzong/p/8746159.html Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的功能又不想写 UDF 的情况具体以一个实例讲解。 Json 数据： {"movie":"1193","rate":"5","timeStamp":"978300760","u...

深入理解 Hive SQL 中的 TRANSFORM 函数

最新发布

liuya19921123的博客

09-26

1903

本文详细介绍了 Hive SQL 中 TRANSFORM 函数的使用方法和应用场景。TRANSFORM 是一个强大的工具，用于在 SQL 查询中直接进行复杂的数据转换，或调用外部脚本进行自定义的数据处理。文章首先解释了 TRANSFORM 函数的基本用法，通过实例演示如何将销售物品列表中的每个项目提取出来并计算销售数量。接着，展示了如何使用 TRANSFORM 结合 regexp_replace 函数解决数组中的枚举值替换问题。最后，介绍了如何利用 TRANSFORM 调用外部 Python 脚本进行数据转

Hive中的TRANSFORM

lantian0802的专栏

06-30

2889

Hive中的TRANSFORM：使用脚本完成Map/Reduce。 Leave a reply 数据、例子，修改自：《Hive with Python example》首先来看一下数据： 12345hive> select * from test;OK1

大数据 hive 实战数据

04-07

在大数据处理领域，Hive是一个极其重要的工具，它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分：`video`数据和`user`数据，这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...

apache-hive-1.2.1-bin.tar.gz

12-29

总结，"apache-hive-1.2.1-bin.tar.gz"是实现大数据分析的重要工具，它为Hadoop环境提供了灵活的SQL接口，便于数据科学家和分析师处理和探索大规模数据集。了解和掌握Hive的使用，能极大地提高数据处理的效率和便捷...

数据仓库及应用（hive基础）

qq_62430919的博客

03-18

1670

Database：数据库，在HDFS中为hive.metastore.warehouse.dir目录下的一个文件夹。Tables：表，表由列构成，在表上可以进行过滤、映射、连接和联合操作，在HDFS中为数据库目录下的子目录。Hive表分为内部表和外部表：内部表类似于RDBMS中的表，由Hive管理外部表指向已经存在HDFS中的数据，外部表的真实数据不被Hive管理。Partitions 分区，每个表都可以按指定的键分为多个分区，作用是为了提高查询的效率，在HDFS中是表目录的子目录。

离线数据分析项目-电商网站日志项目

07-08

在这个名为“离线数据分析项目-电商网站日志项目”的实践中，我们将重点探讨如何利用Hadoop、Hive、HBase以及MapReduce（MR）技术进行大规模数据的处理和分析，并最终将结果存储到MySQL数据库中。首先，Hadoop是...

Hive之Transform实现

lixinkuan的博客

02-24

1351

Hive 的 TRANSFORM关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的功能又不想写 UDF 的情况，脚本一般都是python写的。 Json 数据： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} 需求：把json的字段timeStamp转换为日期编号。 1、先加载 rating...

Hive的Transform的实现

weixin_30872867的博客

10-19

262

Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的功能又不想写 UDF 的情况，脚本一般都是python写的。 Json 数据： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} 需求：把json的字段timeStamp转换为日期编号。 1、先加载 rat...

Hive TransForm案例

墨染百城

04-01

2943

Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。步骤1、先加载rating.json文件到hive的一个原始表 rat_jsoncreate table rat_json(line string) row format delimited; load data local inpath '/home/hadoop/ratin

Hive 中写Transform

iteye_7851的博客

03-09

266

#!/usr/bin/python #coding:utf8 import sys for line in sys.stdin: line = line.strip('\n') arr = line.split('\t') arr[1] = arr[1].replace("sutao","biansutao").replace("bi...

hive-2.3.6 使用transform

流风雨情的博客

03-09

319

现有原始 json 数据（rating.json）如下 {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"} {"movie":"914","rate":"3","timeStamp":"97830196...

【hive】transform脚本

atwdy的博客

05-05

1360

和udf差不多的作用，支持用python实现。通过标准输入流从hive读取数据，内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些，只需要上传脚本=>add file加载到分布式缓存=>使用。

hive sql&& transform 注意事项

yellow_hzy的博客

09-24

678

1、python 如果增加自己的字段，要用双引号不能用单引号。 2、grouping sets 可以用来增加维度 select os_id, nvl(new_flag, 'all') as new_flag, --(0, 1, all) count(1) from xxx where date = '${date}' group by os_i...

Hive TRANSFORM示例

hellojoy的博客

05-25

239

http://blog.cheyo.net/73.html Hive的UDF、UDAF需要通过java语言编写。Hive提供了另一种方式，达到自定义UDF和UDAF的目的，但使用方法更简单。这就是TRANSFORM。TRANSFORM语言支持通过更种语言，实现类似于UDF的功能。 Hive还提供了MAP和REDUCE这两个关键字。但MAP和REDUCE一般可理解为只是TRANSFORM的别名。并不代表一般是在map阶段或者是在reduce阶段调用。详见官网说明。数据准备创建表： .

【Hive】TRANSFORM调用脚本

littlemichelle

07-01

275

Hive的Transform和UDF Hive的Transform的实现 Hive学习之路（十）Hive的高级操作

电商网站日志数据分析：Hadoop、Hive、HBase与MR的应用

离线数据分析是数据处理流程中的重要环节，尤其在电商行业，通过对网站日志的分析，可以挖掘用户行为模式，优化网站性能，提高用户体验以及营销效果。本项目旨在处理和分析电商网站的日志数据，以支持业务决策和运营...