使用sqoop抽取一批数据进入集群:
MR抽取进来的大小是187.6 M 数据量 1516513
测试一: 用impala把批数据进行插入 ,结果同样数据用户impala形成的文件占用磁盘59M,相比MR减少3倍;
测试二:
使用如下参数:
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.compress.
本文通过三个测试探讨了使用sqoop导入数据到集群后,不同处理方式对数据大小的影响。测试一显示,Impala处理后的数据文件比MR小3倍。测试二中尝试了多种Hive和MapReduce的压缩配置,但未见明显压缩效果。而在测试三中,通过特定的Hive参数设置实现了有效压缩,将数据大小压缩至34.8M。这表明正确的压缩配置对于数据存储和处理至关重要。
使用sqoop抽取一批数据进入集群:
MR抽取进来的大小是187.6 M 数据量 1516513
测试一: 用impala把批数据进行插入 ,结果同样数据用户impala形成的文件占用磁盘59M,相比MR减少3倍;
测试二:
使用如下参数:
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.compress.
458
1981
690

被折叠的 条评论
为什么被折叠?