Hive中的扩展功能（Transform和UDF）

最新推荐文章于 2023-05-22 18:29:54 发布

原创最新推荐文章于 2023-05-22 18:29:54 发布 · 387 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hive #transform #UDF #扩展功能

Hadoop生态系统专栏收录该内容

10 篇文章

订阅专栏

本文介绍了Hive SQL中TRANSFORM操作的使用方法，并通过两个具体示例展示了如何利用TRANSFORM进行数据处理。第一个示例展示了如何使用MAP和REDUCE进行数据聚合；第二个示例则演示了如何使用TRANSFORM进行数据格式转换。

Transform

例子1：

FROM (
  FROM pv_users
  MAP pv_users.userid, pv_users.date
  USING 'map_script'
  AS dt, uid
  CLUSTER BY dt) map_output
INSERT OVERWRITE TABLE pv_users_reduced
  REDUCE map_output.dt, map_output.uid
  USING 'reduce_script'
  AS date, count;


FROM (
  FROM pv_users
  SELECT TRANSFORM(pv_users.userid, pv_users.date)
  USING 'map_script'
  AS dt, uid
  CLUSTER BY dt) map_output
INSERT OVERWRITE TABLE pv_users_reduced
  SELECT TRANSFORM(map_output.dt, map_output.uid)
  USING 'reduce_script'
  AS date, count;

例子2：

FROM (
  FROM src
  SELECT TRANSFORM(src.key, src.value) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.TypedBytesSerDe'
  USING '/bin/cat'
  AS (tkey, tvalue) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.TypedBytesSerDe'
  RECORDREADER 'org.apache.hadoop.hive.ql.exec.TypedBytesRecordReader'
) tmap
INSERT OVERWRITE TABLE dest1 SELECT tkey, tvalue

如果USING后面没有as语句，那么第一项作为key，剩下的项作为value进行赋值。

FROM (
  FROM pv_users
  MAP pv_users.userid, pv_users.date
  USING 'map_script'
  CLUSTER BY key) map_output
INSERT OVERWRITE TABLE pv_users_reduced
  REDUCE map_output.key, map_output.value
  USING 'reduce_script'
  AS date, count;