Hive 性能优化与使用技巧
1. Hive 表操作
1.1 添加列到表
Hive 允许在原始数据文件上定义模式,与许多强制按照特定格式转换和导入数据的数据库不同。这种关注点分离的好处是,当数据文件中添加新列时,可以轻松调整表定义。
Hive 提供了 SerDe 抽象,用于从输入中提取数据,也能输出数据,但输出功能使用频率较低,因为 Hive 主要用作查询机制。SerDe 通常从左到右解析,按指定分隔符将行拆分为列,并且容错性很强。例如,如果一行的列数少于预期,缺失的列将返回为 null;如果列数多于预期,多余的列将被忽略。
添加新列到模式只需使用 ALTER TABLE ADD COLUMN 命令,示例如下:
hive> CREATE TABLE weblogs (version LONG, url STRING)
> PARTITIONED BY (hit_date int)
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
hive> ! cat log1.txt
1 /mystuff
1 /toys
hive> LOAD DATA LOCAL INPATH 'log1.txt' INTO weblogs partition(hit_date=20110101);
hive> SELECT * FROM weblogs;
1 /mystuff 20110101
1 /toys 20110101
超级会员免费看
订阅专栏 解锁全文
772

被折叠的 条评论
为什么被折叠?



