Parquet的Row group相当于HBase的HRegion,Parquet的colum trunk相当于HBase的Store。
HBase的Store由StoreFile组成,Parquet的colum trunk则由最小单位page存储。两者最大差异就在于此,StoreFile仅是存储了某一特定列的阀值范围内的values集合。而colum trunk的每个page则存储了一个三元组(Repetition Level,Definition Level,value)。
通过这个设计巧妙的三元组page结构,Parquet做到了对复杂的嵌套数据结构序列化的支持。
本文对比了Parquet和Hbase的数据存储结构,Parquet的Row group类似HBase的HRegion,而colum trunk对应HBase的Store。关键区别在于,StoreFile包含特定列的值集合,而Parquet的page存储三元组(Repetition Level, Definition Level, value),支持复杂嵌套数据结构的序列化。"
124870521,11752890,数据中台:自助式数据报表分析系统设计,"['数据库', '数据仓库', '数据报表']
2万+

被折叠的 条评论
为什么被折叠?



