一、行式存储与列式存储
行式数据库 对比 列式数据库
行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。
而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。
如果要将数据进行压缩:
对于行式数据库,必然按行压缩,当一行中有多个字段,各个字段对应的数据类型可能不一致,压缩性能压缩比就比较差。
对于列式数据库,必然按列压缩,每一列对应的是相同数据类型的数据,故列式数据库的压缩性能要强于行式数据库。
如果要进行数据的查询:
假设执行的查询操作是:select id,name from table_emp;
对于行式数据库,它要遍历一整张表将每一行中的id,name字段拼接再展现出来,这样需要查询的数据量就比较大,效率低。
对于列式数据库,它只需找到对应的id,name字段的列展现出来即可,需要查询的数据量小,效率高。
假设执行的查询操作是:select * from table_emp;
对于这种查询整个表全部信息的操作,由于列式数据库需要将分散的行进行重新组合,行式数据库效率就高于列式数据库。
但是,在大数据领域,进行全表查询的场景少之又少,进而我们使用较多的还是列式数据库及列式储存。
二、Hive中的存储格式
样例:
stored as file_format
create table table_name(
.....)
row format...."\t"
stored as file_format;
创建一张表时,可以使用“stored as file_format”来指定该表数据的存储格式,hive中,表的默认存储格式为TextFile。
第一种方式: