在hive中创建表是有如下一个语句
[ROW FORMAT row_format]
row_format 的类型有如下:
file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默认是文本格式例如:

按照数据存储方式分类
按照行存储
SEQUENCEFILE
TEXTFILE
按照列存储
RCFILE
ORC
PARQUET
说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。






文件格式的压缩比较

实际业务我们是按照列来分析数据及使用数据的。
1、创建文本表

2、加载数据

image.png

3、查看创建OCR文件的格式

4、创建ocr文件

5、把文件表中的数据插入到OCR类型的表中

6、创建parquet类型的表并插入数据

7、查看文件大小
原始文本文件的大小

orc文件大小

partquet文件大小

执行sql语句测试执行速度


本文介绍了在Hive中创建表的语句,并详细比较了不同存储格式如SEQUENCEFILE、TEXTFILE、RCFILE、ORC和PARQUET的性能和大小。特别强调了PARQUET作为列式存储格式在数据压缩和分析速度上的优势,通过创建和加载数据的步骤展示了ORC和Parquet文件相对于文本文件的大小差异,并执行SQL语句测试了执行速度。
981

被折叠的 条评论
为什么被折叠?



