Hive数据处理:文件编码、数据库与表操作详解
1. 文本文件数据值编码
1.1 常见文本文件格式
常见的文本文件格式有逗号分隔值(CSV)和制表符分隔值(TSV)。不过,这两种格式存在不足,即需要注意文本中嵌入的逗号或制表符,避免其被误当作字段或列分隔符。因此,Hive默认使用各种控制字符,这些字符在值字符串中出现的可能性较小。
1.2 Hive默认的记录和字段分隔符
| 分隔符 | 描述 |
|---|---|
| \n | 对于文本文件,每行是一条记录,换行符分隔记录 |
| ^A(“control” A) | 分隔所有字段(列),在 CREATE TABLE 语句中显式指定时使用八进制代码 \001 |
| ^B | 分隔数组(ARRAY)或结构体(STRUCT)中的元素,或映射(MAP)中的键值对,在 CREATE TABLE 语句中显式指定时使用八进制代码 \002 |
| ^C | 分隔映射中键值对的键和对应的值,在 CREATE TABLE 语句中显式指定时使用八进制代码 \003 |
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



