Parquet的Row group相当于HBase的HRegion,Parquet的colum trunk相当于HBase的Store。
HBase的Store由StoreFile组成,Parquet的colum trunk则由最小单位page存储。两者最大差异就在于此,StoreFile仅是存储了某一特定列的阀值范围内的values集合。而colum trunk的每个page则存储了一个三元组(Repetition Level,Definition Level,value)。
通过这个设计巧妙的三元组page结构,Parquet做到了对复杂的嵌套数据结构序列化的支持。