1,确保创建索引
$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog
2,创建hive表时需要在后面指定format格式
SETFILEFORMAT
INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";
或者alter table现有表。
3,alter table后对已经load进表中的数据,需要重新load和创建索引,要不还是不能分块
本文详细介绍了如何利用Hadoop和LZO压缩技术优化Hive表的存储与查询效率,包括创建索引、指定数据格式、重新加载和创建索引等关键步骤,以实现数据分块和提升性能。
187

被折叠的 条评论
为什么被折叠?



