Fayson的github: https://github.com/fayson/cdhproject
推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f
1 环境准备
- 测试环境:
1.CDH6.2
2.集群已开启Kerberos
3.Redhat7.4
1.准备一张文本表,数据文件约6GB。
create table if not exists hive_table_test (
s1 string,
s2 string,
s3 string,
s4 string,
s5 string,
s6 string,
s7 string,
s8 string,
s9 string,
s10 string,
s11 string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ","
stored as textfile location '/fayson/hive_table_test';
hadoop fs -put hbase_data.csv /fayson/hive_table_test
select * from hive_table_test limit 1;


2.创建一张Parquet文件表,然后从文本表将数据插入过去。
create table if not exists hive_table_test_parquet (
s

本文介绍了在Hive中通过desc命令无法准确判断Parquet文件是否被压缩的问题,由于Hive的bug(HIVE-2250),命令显示结果总是false。作者通过CDH提供的parquet-tools工具,展示了如何检查Parquet文件的压缩状态,验证了压缩的有效性。
最低0.47元/天 解锁文章
1113

被折叠的 条评论
为什么被折叠?



