1. Hive中的数据抽象

Hive中的表(stu)必须要归属于某个数据库(default)
Database 包含了0到N张表,每个db对应HDFS上的一个文件夹,default库默认对应的是 /user/hive/warehouse
2. 基本数据类型
官网: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types
HDFS上的文件来说:string
数值类型:int bigint float double decimal
字符串类型:string 90%
布尔类型:boolean: true/false (可考虑用tinyint代替优化)
日期类型:date timestamp …
3. 分隔符
| delimiter | code | 备注 |
|---|---|---|
| ^A | \001 | 字段之间的分隔符 |
| \n | \n | 记录分隔符,行与行的分隔符 |
| ^B | \002 | ARRAY/STRUCT (Hive中的复杂数据类型) |
| ^C | \003 | key/value of MAP (Hive中的复杂数据类型) |
- 可以自己指定分隔符,但是指定的分隔符不能是数据中的内容,否则数据会错位。

8416

被折叠的 条评论
为什么被折叠?



