hive 创建三种文件类型的表

本文介绍Hive中不同文件格式(TextFile, SequenceFile, RCFile)的压缩配置及动态分区插入操作。提供了具体的Hive SQL语法示例,并涵盖了压缩设置、动态分区配置等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

--TextFile  
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
INSERT OVERWRITE table hzr_test_text_table PARTITION(product='xxx',dt='2013-04-22')  
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22';  
  
--SquenceFile  
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
set io.seqfile.compression.type=BLOCK;  
INSERT OVERWRITE table hzr_test_sequence_table PARTITION(product='xxx',dt='2013-04-22')  
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22';  
  
--RCFile  
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
INSERT OVERWRITE table hzr_test_rcfile_table PARTITION(product='xxx',dt='2013-04-22')  
SELECT xxx,xxx.... FROM xxxtable WHERE product='xxx' AND dt='2013-04-22'; 


动态分区插入

set hive.exec.compress.output=true;
set mapred.output.compress=true;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions.pernode = 1000;
SET hive.exec.max.dynamic.partitions=1000;

INSERT overwrite TABLE t_lxw1234_partitioned PARTITION (month,day) 
SELECT url,substr(day,1,7) AS month,day 
FROM t_lxw1234;
 
注意:在PARTITION (month,day)中指定分区字段名即可;

在SELECT子句的最后两个字段,必须对应前面PARTITION (month,day)中指定的分区字段,包括顺序。



4 行转换列:  单表下写法
 
hive如何将
a       b       1
a       b       2
a       b       3
c       d       4
c       d       5
c       d       6
变为:
a       b       1,2,3
c       d       4,5,6
 
 
select col1,col2,concat_ws(',',collect_set(col3)) 
from tmp_jiangzl_test  
group by col1,col2;    ----------------》 已经验证过  OK
 

添加metastore启动脚本bin/hive-metastore.sh

#!/bin/sh
nohup ./hive --service metastore >> metastore.log 2>&1 &
echo $! > hive-metastore.pid
添加hive server启动脚本bin/hive-server.sh

nohup ./hive --service hiveserver >> hiveserver.log 2>&1 &
echo $! > hive-server.pid
启动metastore和hive server

./hive-metastore.sh
./hive-server.sh

nohup ./hiveserver2 >> hiveserver.log 2>&1 &


beeline参数设置:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients
### Hive 创建外部支持的数据类型 在创建 Hive 外部时,`STORED AS` 关键字用于指定数据的存储格式。以下是 Hive 支持的主要数据类型列: #### 1. **TextFile** 这是最常用的一种文件格式,默认情况下 Hive 使用 TextFile 存储数据。每条记录占一行,字段之间可以用分隔符区分。 ```sql CREATE EXTERNAL TABLE example_table (id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; ``` #### 2. **SequenceFile** 这是一种二进制文件格式,适合压缩场景下的高效读写操作。它是一种可分割的文件格式,因此适用于 MapReduce 的并行处理。 ```sql CREATE EXTERNAL TABLE sequence_example (id INT, value DOUBLE) STORED AS SEQUENCEFILE; ``` #### 3. **ORC (Optimized Row Columnar)** ORC 是一种高效的列式存储格式,专为大数据分析设计。相比其他格式,ORC 提供更高的压缩率和更快的查询性能。 ```sql CREATE EXTERNAL TABLE orc_example (id BIGINT, data STRING) STORED AS ORC; ``` #### 4. **Parquet** Parquet 是另一种流行的列式存储格式,广泛应用于大数据生态系统中。它的设计目标是优化存储空间和提高查询效率。 ```sql CREATE EXTERNAL TABLE parquet_example (id INT, description STRING) STORED AS PARQUET; ``` #### 5. **Avro** Avro 是一种基于模式(Schema)的文件格式,具有良好的兼容性和扩展性。它可以动态解析数据结构,非常适合复杂数据模型的应用场景。 ```sql CREATE EXTERNAL TABLE avro_example (record STRUCT<id:INT,name:STRING>) STORED AS AVRO; ``` #### 6. **RCFile (Record Columnar File)** RCFile 结合了行式和列式的优点,在存储和计算方面现均衡。尽管其使用频率不如 ORC 和 Parquet 高,但在某些特定场景下仍然有应用价值。 ```sql CREATE EXTERNAL TABLE rcfile_example (key STRING, value ARRAY<DOUBLE>) STORED AS RCFILE; ``` 以上列举了常见的 Hive 数据存储格式[^2]。需要注意的是,具体的支持情况可能会因 Hive 版本的不同而有所差异。 --- ### 注意事项 当选择合适的存储格式时,应综合考虑以下几个因素: - 查询性能需求:对于频繁扫描大量数据的情况,推荐使用列式存储格式(如 ORC 或 Parquet)。 - 压缩比:如果需要节省磁盘空间,可以选择 SequenceFile 并启用压缩功能。 - 文件大小:HDFS 更倾向于大文件,因此建议避免生成过多的小文件。 - 生态系统集成:某些工具或框架可能只支持特定类型的文件格式。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值