数据序列化:Parquet、CSV与Hadoop的深度融合
1. Parquet与Hive/Impala的结合使用
1.1 问题提出
在Hive和Impala中处理Parquet数据是常见需求,但如何实现呢?
1.2 解决方案
利用Hive和Impala对Parquet的内置支持。
1.3 操作步骤
- 创建目录并复制文件 :
$ hadoop fs -mkdir parquet_avro_stocks
$ hadoop fs -cp stocks.parquet parquet_avro_stocks
- 创建外部Hive表并定义模式 :
hive> CREATE EXTERNAL TABLE parquet_stocks(
symbol string,
date string,
open double,
high double,
low double,
close double,
volume int,
adjClose double
) STORED AS PARQUET
LOCATION '/user/YOUR_USERNAME/parquet_avro_stocks';
超级会员免费看
订阅专栏 解锁全文
489

被折叠的 条评论
为什么被折叠?



