实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建ORC源表

本文介绍ORC(Optimized Row Columnar)存储格式的特性,包括其在Hadoop生态中的作用,以及如何使用Flink创建ORC源表。ORC格式通过优化存储和查询效率,成为Hive、SparkSQL、Presto等查询引擎的首选格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

创建 ORC 源表

ORC(Optimized Row Columnar)是一种Hadoop生态圈中的列式存储格式。产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目前也被Spark SQL、Presto等查询引擎支持,但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。

DDL定义

Flink支持使用ORC格式文件作为输入源,示例代码如下:

 
    
  1. create table orc_source(
  2. id int,
  3. user_name VARCHAR,
  4. content VARCHAR,
  5. primary key(id)
  6. ) with (
  7. type='orc',
  8. filePath='hdfs://hdfshome/orcpath/test'
  9. );

WITH参数

参数注释说明备注
filePath文件路径目前支持hdfs、oss两种文件系统。
enumerateNestedFiles递归读取目录下的所有文件true - 递归读取目录下所有文件。默认为false。
本文转自实时计算—— 创建ORC源表
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值