Hive实战下

本文介绍了如何在Hive中进行Bucket操作,创建了带有Bucket的rating_table_b,并展示了如何插入数据。接着详细讲解了UDF(UpperCase.java)的创建和使用,以及UDAF和UDTF的应用。同时,通过实例展示了使用transform功能处理数据,包括awk和python实现的udtf,并进行了词频统计的案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实践一:Bucket
数据集:create_rating_table_b.sql(创建bucket)

create external table rating_table_b
(userId INT,
movieId STRING,
rating STRING
)
clustered by (userId) into 32 buckets;

创建userid  movieid,  rating三个字段
clustered  by  (userid)  into  32buckets :按userid做32个分库,用userid除32取模,定位到reduce
创表:

hive  -f  create_rating_table_b.sql

 查看数据表:

hive> show tables;
OK
movie_table
rating_table
rating_table_b
rating_table_p
Time taken: 0.042 seconds, Fetched: 4 row(s)


hive> desc  rating_table_b;
OK
userid                  int                                         
movieid                 string                                      
rating                  string                                      
Time taken: 0.133 seconds, Fetched: 3 row(s)


hive> desc  formatted  rating_table_b;
OK
# col_name              data_type               comment             
                 
userid                  int                                         
movieid                 string                                      
rating                  string                                      
                 
# Detailed Table Information             
Database:               default                  
Owner:                  root                     
CreateTime:             Sun May 26 15:29:30 CST 2019     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://master:9000/user/hive/warehouse/rating_table_b    
Table Type:             EXTERNAL_TABLE           
Table Parameters:                
        EXTERNAL                TRUE                
        transient_lastDdlTime   1558855770          
               
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值