Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET.
行式存储
特点:
查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。
列式存储
特点:
因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。
常见格式的存储:
TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的; ORC和PARQUET是基于列式存储的。
ORC的存储最小,但兼容性较差.
PARQUET的压缩较小,兼容性好,常用.
本文介绍了Hive中四种主要的存储格式:TEXTFILE、SEQUENCEFILE、ORC和PARQUET,并对比了行式存储与列式存储的特点。TEXTFILE和SEQUENCEFILE采用行式存储,适用于查询完整行数据的情况;而ORC和PARQUET为列式存储,适合于仅查询部分字段的场景,并且有更好的压缩效果。
983

被折叠的 条评论
为什么被折叠?



