14、数据序列化：Parquet、CSV与Hadoop的深度融合

QuietPulse

于 2025-07-08 13:26:48 发布

阅读量45

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop实战：从入门到精通文章标签： Parquet Hive Impala

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/150061778

Hadoop实战：从入门到精通专栏收录该内容

45 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据序列化：Parquet、CSV与Hadoop的深度融合

1. Parquet与Hive/Impala的结合使用

1.1 问题提出

在Hive和Impala中处理Parquet数据是常见需求，但如何实现呢？

1.2 解决方案

利用Hive和Impala对Parquet的内置支持。

1.3 操作步骤

$ hadoop fs -mkdir parquet_avro_stocks
$ hadoop fs -cp stocks.parquet parquet_avro_stocks

创建外部Hive表并定义模式 ：

hive> CREATE EXTERNAL TABLE parquet_stocks(
    symbol string,
    date string,
    open double,
    high double,
    low double,
    close double,
    volume int,
    adjClose double
) STORED AS PARQUET
LOCATION '/user/YOUR_USERNAME/parquet_avro_stocks';