21-大数据-hive存储格式

本文介绍了Hive从行格式和文件格式两个角度对表存储进行管理。阐述了默认存储格式为分割的文本,包括行内、集合元素、映射键的分隔符及默认文件格式设置。还提及二进制存储格式、定制SerDe和存储句柄等内容。

hive从两个角度对表的存储进行管理,分别是行格式(row format)和文件格式(file format),行格式指行和一行中的字段如何存储

1、默认存储格式:分割的文本
在创建表时没有 row format或 sored as 子句,那么hive所使用的数据格式是分割的文本,每行存储一个数据行
默认的行内分隔符不是制表符,二是ASCII控制码集合中的Control-a。表中各行之间用换行符分割
集合类元素的默认分隔符是ontrol-b,用于分割array或struct或map的键-值对中的元素。默认的映射键(map key)分隔符为字符 control-c,用于分割map的键和值
默认存储格式通过属性:hive.default.fileformat设置,默认是 TextFile
create table …
等价于:使用八进制来表示分隔符,如001表示control-a
create table
row format delimited
fields terminated by ‘\001’
collection items terminated by ‘\002’
map keys terminated by ‘\003’
lines terminated by ‘\n’
sored as textfile;

2、二进制存储格式:顺序文件、avro数据文件、parquet文件、rcFile与ORCFile

3、使用定制的SerDe: RegexSerDe

4、存储句柄

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值