spark 通过jdbc读取hive jdbc

最新推荐文章于 2025-11-01 13:29:54 发布

原创

最新推荐文章于 2025-11-01 13:29:54 发布 · 4.6k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hive

本文介绍使用Spark JDBC方式连接Hive时遇到的问题及解决办法。主要问题出现在Hive表列名的处理上，导致读取的数据仅包含表名。通过自定义Hive Dialect并调整列名引用方式来解决。

1.通过spark提供的jdbc方式连接代码如下

val spark = SparkSession.builder().master("local").getOrCreate()
    val rdd = spark.read.format("jdbc")
      .format("jdbc")
      .option("driver", "org.apache.hive.jdbc.HiveDriver")
      .option("url", "jdbc:hive2://hiveserver2:10000")
      .option("user", "hive")
      .option("dbtable", "dep.tablename1")
      .option("fetchsize", "100")
      .load()
    rdd.show()

2.执行之后发现读取的数据全为表名数据

3.分析和调试

通过一步步的调试发现代码最终会到JDBCRDD，所以在compute方法打断点，一步步调试发现到下面代码的时候出现问题

通过查看sqlText的值发现sqlText的值为 select "columns1" from dep.tablename1 的值，很显然得到的结果肯定是columns1的值。为什么会出现上面的问题我们跟踪colmnList的值发现代码在下面出现

private val columnList: String = {
    val sb = new StringBuilder()
    columns.foreach(x => sb.append(",").append(x))
    if (sb.isEmp

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wang972779876

关注关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark3.0.x用jdbc读取hive3.1.x数据，结果出现值和列明一样

weixin_44513718的博客

04-25

2202

代码： def readDfdatafromHive(db:String,tablename:String,sparksession:SparkSession ):DataFrame={ val df= sparksession.read .format("jdbc") .option("driver","org.apache.hive.jdbc.HiveDriver") .option("url","jdbc:hive2://hdp100:1111/") .opt

Spark-SQL连接Hive 的五种方法

m0_73734232的博客

12-11

3999

Spark-SQL连接Hive 的五种方法

参与评论您还未登录，请先登录后发表或查看评论

Hive 与 Spark 集成：Spark SQL 读取 Hive 表的两种方式（Spark on Hive）

最新发布

hhchdjkjko的博客

11-01

770

在 Spark on Hive 架构中，Spark 作为计算引擎，Hive 作为元数据存储（Metastore），Spark SQL 可以通过集成 Hive Metastore 来读取 Hive 表数据。这种方式允许 Spark 直接利用 Hive 的表定义和分区信息，无需数据迁移。以下是两种常见且可靠的方式（基于 Spark 2.x/3.x 版本），每种方式都包括原理、步骤和代码示例。通过以上方式，您可以灵活实现 Spark SQL 读取 Hive 表。建议优先使用方式1以获得最佳性能。

spark通过JDBC读取hive事务表

07-20

3047

目前spark2.x版本底层并不支持spark直接访问hive事务表，只能获取表结构，不能获取数据，有兴趣的同学可以试验一下。网上也查阅了很多相关的资料，现在把它们总结一下，目前能想到的解决方案就是通过jdbc的方式获取，以下就是解决方案： sql: str = "(select * from std.ice_tiantongfen_back_for_resolve_url_2) as temp" jdbcDF = sparkSession.read \ .format("jdbc") \

SparkSQL（14）：jdbc访问hive表

小蚯蚓的博客

10-01

3052

一、目的：使用jdbc访问hive表二、操作： 1.前提开启thriftserver sbin/start-thriftserver.sh \ --master local[2] \ --jars /opt/datas/mysql-connector-java-5.1.27-bin.jar \ --hiveconf hive.server2.thrift.port=14000...

spark外部数据源(hive和jdbc)

小枫的博客

03-20

1199

Spark SQL 附带了一个用 JDBC 从其他数据库读取数据的数据源 API。它简化了查询这些数据源的方式，因为其返回的是 DataFrame，所以可以获得 Spark SQL的全部优势（包括性能方面以及与其他数据源的表进行连接的能力）

spark读取hive数据的两种方式

qq_42213403的博客

06-04

1万+

spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数.

Spark SQL读取Hive数据配置及使用Thrift JDBC/ODBC Server访问Spark SQL

Fang的博客

01-11

1万+

[TOC] Spark SQL可以读取hive中的数据,开启Thrift JDBC/ODBC Server服务可以使其他语言客户端使用Spark SQL.关于Spark SQL中对hive的支持,官方文档说明让人疑惑,好像没有把hive编译进去,需要自己手动编译,官方文档提及: Spark SQL also supports reading and writing data stored in

spark通过jdbc连接hive

qq_16234927的博客

07-18

2709

连接hive的方法有很多，这里说说通过jdbc连接hive 首先要把hive下的conf下的hive-site.xml文件复制到编译器中 object readAndWriteHive { //从hive中读取数据表，去重并写到一个新表中 def main(args: Array[String]): Unit = { //加载配置文件 val load = ConfigFa...

二.java实现SparkSQL之jdbc方式编程访问hive数据库

飞翔的宇宙

10-09

3879

第一步: 添加maven依赖 &amp;lt;repositories&amp;gt; &amp;lt;repository&amp;gt; &amp;lt;id&amp;gt;scala-tools.org&amp;lt;/id&amp;gt; &amp;lt;name&amp;gt;Scala-Tools

hive-jdbc-1.2.1.spark2.jar

04-01

hive-jdbc-1.2.1.spark2.jar

Spark读写Hive

qq_34341930的博客

05-29

284

有了Spark以后，我们可以在Spark-shell的界面以及 Spark-sql的界面进行我们Hive的读写，我们只需要将Hive的hive-site.xml导入到spark/conf下即可，因为Hive的元数据是储存在MySQL上的，所以我们只需要确保MySQL关联的HIVE数据库是可通的即可，无需安装Hive来进行校验。 hive-site.xml需要的内容 <?xml v...

Spark采用jdbc的方式访问hive

孙大迪迪的博客

01-05

4287

这里需要导入一个jdbc-hive依赖需要注意的是，包的版本一定要确认好，切勿版本过高 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <ve...

spark sql完成jdbc数据源导入hive表，java API实现

运西北

07-09

910

1、基础环境 spark on yarn环境已经搭建，通过start-thriftserver.sh --master yarn启动 sparksubmit进程即可 dm数据库； 2、使用jdbc来访问spark，java API实现 2.1 创建datasource、connection、statement代码，这里属于通用代码，使用Druid连接池来创建jdbc连接 /** * 读取druid.properties,并生成datasource */ privat

spark jdbc写数据到Hive

m0_58032574的博客

02-02

1386

由于spark本身是不支持jdbc写入hive的，我们这里通过byzer做了实现，byzer自带了HiveJdbcDialect，有了这个功能后，我们通过save是可以正常创建表结构的，然后就拷贝hdfs数据，并通过原生的hive load data关联hdfs文件数据。

hive jdbc驱动_Spark基础：读写Hive

weixin_39951929的博客

11-29

575

【Spark】spark使用jdbc连接带有kerberos认证的hive jdbc

善皮之的博客

03-12

2302

使用spark jdbc API 访问带有kerberos的hive jdbc获取数据

Spark读取Hive的三种方式