spark读取hive数据的两种方式

坏圈

于 2021-06-04 14:13:06 发布

阅读量1.5w

点赞数 14

文章标签： spark hadoop 大数据 hive hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42213403/article/details/117557610

版权

简述

spark读取hive数据的两种方式

一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据吞吐量大、使用spark操作起来更加友好。

二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数据库上。

两种方式的实现

方式一：直接采用spark on hive的方式读取

这种方式只适用在服务器上提交spark-submit时读取本集群hive中的数据，后面会写一篇spark任务读取不同集群中的hive数据方法。

这种方式实现起来很简单，在构建SparkSession的时候设置

enableHiveSupport()

样例：

    val spark = SparkSession.builder()
      .appName("test")
      .enableHiveSupport()
      .getOrCreate()

这样你的SparkSession在使用sql的时候会去找集群hive中的库表,加载其hdfs数据与其元数据组成DataFrame

val df = spark.sql("se

最低0.47元/天解锁文章

博客等级

码龄7年

7
原创

21
点赞

67
收藏

7
粉丝

关注

私信

热门文章

最新评论

Spark 读取gz文件报 java.io.EOFException: Unexpected end of input stream
fullmonitor: 这个是错误的，只是针对的hive sql 查询的异常。而textfile 读取的异常是无效的。
spark读取hive数据的两种方式
syd19950119: 拿出来的表的字段名都会带上表名的前缀能去掉吗
Spark jdbc 读取hive报java.sql.SQLException: Method not supported
KEVIN_WANG333: 大佬阿里云没这个 cdh 的依赖咋搞
spark读取hive数据的两种方式
不太聪明的LQ: 那请问一下，若不使用jdbc，使用spark中的方式，比如spark sql如何读取不同集群中的数据，并根据ip写入到对应的hive数据库中呢？我这边是有一个SparkSession，用这个sparkSession采用jdbc的方式获取hive中指定服务器下的hive数据。之后再用 dataset.write().mode().jdbc()的方式将数据写入到hive中，老是报这个错误cannot recognize input near 'TEXT' ',' 'st_name' in column type，一直没找到怎么解决
spark读取hive数据的两种方式
坏圈: 用jdbc写hive我还没试过，不过应该和其他写入数据库的方式一样, DataFrame.write.jdbc()..，这种方法不建议啊，太难受了。

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。