Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。
在实际业务场景中,可能需要使用Java API,或者MapReduce读写Orc文件。
本文先介绍使用Java API读取Hive Orc文件。
在Hive中已有一张Orc格式存储的表lxw1234:

该表有四个字段:url、word、freq、weight,类型均为string;
数据只有5条:

下面的代码,从表lxw1234对应的HDFS路径中使用API直接读取Orc文件:
- package com.lxw1234.test;
- import java.util.List;
- import java.util.Properties;
- import org.apache.hadoop.fs.Path;
- import org.apache.hadoop.hive.ql.io.orc.OrcInputFormat;

本文详细介绍了如何使用Java API读取Hive中存储的Orc文件。通过示例代码展示从HDFS路径读取Orc文件并解析其内容的过程,包括设置配置、初始化Serde和ObjectInspector等步骤。
最低0.47元/天 解锁文章
6540

被折叠的 条评论
为什么被折叠?



