Java API 读取Hive Orc文件

最新推荐文章于 2025-11-02 17:43:35 发布

原创

最新推荐文章于 2025-11-02 17:43:35 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop基础教程

本文详细介绍了如何使用Java API读取Hive中存储的Orc文件。通过示例代码展示从HDFS路径读取Orc文件并解析其内容的过程，包括设置配置、初始化Serde和ObjectInspector等步骤。

Orc是Hive特有的一种列式存储的文件格式，它有着非常高的压缩比和读取效率，因此很快取代了之前的RCFile，成为Hive中非常常用的一种文件格式。

在实际业务场景中，可能需要使用Java API，或者MapReduce读写Orc文件。

本文先介绍使用Java API读取Hive Orc文件。

在Hive中已有一张Orc格式存储的表lxw1234:

Hive Orc

该表有四个字段：url、word、freq、weight，类型均为string；

更多精彩内容点我学

数据只有5条：

Hive Orc

下面的代码，从表lxw1234对应的HDFS路径中使用API直接读取Orc文件：

package com.lxw1234.test;
import java.util.List;
import java.util.Properties;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.io.orc.OrcInputFormat;

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hadoop基础教程

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Java读取ORC文件的内容

weixin_42001459的博客

05-09

6540

import java.util.List; import java.util.Properties; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hiv...

ORC格式文件读取

qq_43747015的博客

11-21

1073

ORC格式文件读取

参与评论您还未登录，请先登录后发表或查看评论

JAVA读取ORC文件还原数据

weixin_40156574的博客

03-24

1608

踩过坑，笔者快要吐血了，但愿能帮助同行解决问题，废话不多说，来直接上代码。

java读写orc文件_使用JAVA API 解析ORC File

weixin_29258297的博客

02-26

2405

使用JAVA API 解析ORC Fileorc File 的解析过程中，使用FileInputFormat的getSplits(conf, 1)函数，然后使用 RecordReaderreader = in.getRecordReader(splits[0], conf, Reporter.NULL);解析ORCfile，发现当ORC 文件的比较大的时候，超过256M时，不能读取所有的数据。比...

Java中的数据湖集成：Parquet/ORC文件格式的读取与写入性能优化

最新发布

weixin_41455464的博客

11-02

1015

首先，我们来简单了解一下Parquet和ORC的特性。它们都是列式存储格式，这意味着数据按列而不是按行存储。这种存储方式特别适合分析型查询，因为可以只读取查询所需的列，从而大幅减少I/O操作。

使用Java API将txt文件转换为orc文件

weixin_51091087的博客

04-08

1923

orc文件是hive里面重要的文件格式，它是将准备列式存储的普通文件转换为二进制的orc文件。关于orc文件的格式详解，请参考

JAVA拉取Hive的数据导入到MySQL中

dontlikerabbit的博客

04-22

1032

1.pom文件需要的依赖  <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId> <version>3.4.6</version> .

ORC 文件层 API 读写

乔的博客

04-06

4056

参考：https://codecheese.wordpress.com/2017/06/13/reading-and-writing-orc-files-using-vectorized-row-batch-in-java/ 目标： orc 各种数据类型写入 orc 查询，带过滤条件，带投影 ORC 写入 package test.test; import java.util.UUID; i...

Java - MR 读写 orc 之 NoSuchMethodError: hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()

BITDDD小栈

04-20

2942

一.引言上一篇文章提到了 Java map-reduce 如何单独读取 ORC 文件以及 RcFile 文件，在同一个 MR 任务下分别读取 RcFile 以及 ORC 文件时，报如下错误:java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()I。完整的异常栈如下: 2022-04-20 06:44:47,326 FATAL [main] org.apach.

写ORC 格式文件，HIVE 工具类

11-16

写ORC 格式文件的工具类，可以用于写hive orc 的格式，

hadoop的各种jar包

10-26

使用ecplice操作hadoop所需要的各种jar包。包括hdfs,maprudce,yarn,httpfs,kms。

Java写本地ORC文件(Hive2 API)

Make progress step by step everyday.....

08-18

8146

Java写本地ORC文件(Hive2 API) Hive2.0以后，使用了新的API来读写ORC文件（https://orc.apache.org）。本文中的代码，在本地使用Java程序生成ORC文件，然后加载到Hive表。代码如下： package com.lxw1234.hive.orc; import org.apache.hadoop.conf.Configurat

JAVA生成ORC格式文件

空城的博客

10-18

1225

基于此可以根据实际业务场景可以生成ORC格式数据并上传到HDFS上提供Hive查询。

Java API 写 Hive Orc文件

hadoop基础教程

02-03

2077

下面的代码将三行数据：张三,20 李四,22 王五,30 写入HDFS上的/tmp/lxw1234/orcoutput/lxw1234.com.orc文件中。 packagecom.lxw1234.test; importjava.io.DataInput; importjava.io.DataOutput; importjava.io.IOException; ...

Spark-SQL 读写Orc 文件

m0_46538284的博客

01-04

3506

读文件 import org.apache.spark.sql.{DataFrame, SparkSession} //通过csv文件创建DataFrame object CreateDataFrameFromOrc { def main(args: Array[String]): Unit = { //创建SparkSession(是对SparkContext的包装和增强) val spark: SparkSession = SparkSession.builder()..

MapReduce - 读取 ORC, RcFile 文件

BITDDD小栈

04-19

2781

大数据Orc文件生成与读取

song0394的专栏

02-12

863

高效压缩：ORC文件支持多种压缩算法，如Snappy、Zlib等，可以显著减少存储空间。快速读取：列式存储使得ORC文件能够快速读取特定列的数据，而无需读取整个行。结构化数据支持：ORC文件可以存储复杂的结构化数据，如嵌套结构、列表和映射等。在生成ORC文件之前，您需要定义数据的schema。schema定义了数据的结构，包括列的名称和类型。

【Pandas】pandas.read_feather详解与实战应用：读取 Feather 格式数据

科技改变人类，技术成就未来

08-03

1405

Feather 是一种二进制列式存储格式，专为高效地序列化 Pandas DataFrame 和 R DataFrame 设计。Pandas 提供了 read_feather 函数，用于从 Feather 文件中读取数据，并将其转换为 Pandas DataFrame。这篇博客将详细讲解 read_feather 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。

Hive文件操作与注册表管理详解

标题“HIVE文件读写”指的是如何在Hadoop生态中，尤其是在Hive中读取和写入数据文件的操作方法。Hive是一个建立在Hadoop之上的数据仓库工具，它提供了简单的类SQL查询语言（HiveQL）来简化Hadoop中数据分析的工作。...