spark跨集群读取hive数据

最新推荐文章于 2023-02-02 10:41:00 发布

坏圈

最新推荐文章于 2023-02-02 10:41:00 发布

阅读量2.9k

点赞数 2

文章标签： hdfs hadoop 大数据 hive spark

本文链接：https://blog.youkuaiyun.com/qq_42213403/article/details/117562121

版权

简述

本文是介绍使用spark on hive的方式读取不同集群hive中的数据并落入本地集群。

一般使用spark on hive的方式操作hive数据的使用场景都是spark任务提交和hive所处的是同一个集群上。如果不同是不同集群就会有诸多限制。

这种方式对集群权限要求比较高，这也是用此方法不太实用的地方，就当作是一个不考虑实用性的小实验。

这种方式算是个野路子，有其他更成熟的产品工具使用，常见的跨集群的数据迁移工具有distcp、sqoop等等。

实现方法

第一步构建SparkSession

    val spark = SparkSession.builder()
      .master("local[2]")
      .appName("test")
      .config("hive.metastore.schema.verification", false)
      .config("dfs.client.use.datanode.hostname", true)
      .config("hive.metastore.uris","thrift://xxx:9083")
      .enableHiveSupport()
      .config("dfs.client.socket-timeout",300000)
      .getOrCreate()

执行报错

      val df = spark.sql(
        """
          |select * from test.user_info
          |""".stripMargin)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

坏圈

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

转载spark异地读取hive（亲测有效）

jin6872115的博客

11-16

1594

https://segmentfault.com/a/1190000019456175 本文适用有入门spark基础的同学，一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧！众所周知，业界比较成熟的同步数据工具是Sqoop，它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL 但是在公司项目技术选型时选用了用Spark来从一个集群同步数据到另一个集群下

linux环境下用pyspark2.x读取集群中hive的表数据遇到的坑及其解决方法

qq_39954916的博客

05-07

1664

第一个坑：首先把hive安装目录下/opt/module/hive/conf 的hive-site.xml复制到spark-2.1.1-bin-hadoop2.7\conf，执行如下代码： from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext,Row sparkC...

参与评论您还未登录，请先登录后发表或查看评论

Spark跨集群写hive

南风知我意

06-05

1243

我们有两个集群（ps：计算集群/存储集群），现在有个需求就是，计算集群运行Spark任务，从kafka取数据写到存储集群的hive。 1，在远程连接Hive时Hive有两种服务Hive Metastore Server和HiveServer2 HiveServer2是JDBC连接，使用这种方式会占用数据本地集群的计算资源（常用默认端口10000的那种） 2，Spark连接Hive可以使用Hive Metastore Server，这样只需连接Hive的元数据，通过元数据记录的数据路径拉取数据使用Spark对

Scala109-跨集群读取hive

此心安处是吾乡

01-27

659

实际工作中的场景，要在A集群部署任务，读取B集群hive的数据，存在A集群对应的表中。目前调研得出以下三种方式： A集群直接读取B集群的hdfs数据(两个集群环境要通),对得到的DataFrame操作，写入A集群的hive中 A集群上建sparksession时，加入B集群的参数，直接spark.sql读取数据，再写入集群A的hdfs中(此时不能再写入集群A的hive了) pyspark，通过pyhive这个库读取hive数据，转换成pyspark的dataframe，再建立tempview，通过sp

使用Spark实现推主机群Hive数据到租户集群Hive的高性能Hive2Hive数据集成【Java】需编写JDBC连接Hive解析元数据

云来山更佳，云去山如画

11-03

990

使用Spark实现推主机群Hive数据到租户集群Hive的高性能Hive2Hive数据集成【Java】需编写JDBC连接Hive解析元数据

Hive跨集群和版本迁移

L, there!

07-05

1491

公司重新搭建CDH6.0.1，并把旧集群Hive1.1迁移新集群Hive2.1，记录一下过程。步骤：目录步骤： 1. 迁移Hive数据和MySQL中的matastore 1. 迁移Hive数据至新集群，在新集群上执行 2. 在源集群上MySQL导出Hive metastore 3. 在新集群使用Hive用户导入metastore 4. 升级Hive库 5. 修改meta...

使用Spark跨集群同步Hive数据

SPlus_SS的博客

01-21

1434

本文适用有入门spark基础的同学，一些最基础知识不再赘述通过阅读本文即可掌握使用Spark跨集群同步Hive数据的技巧！众所周知，业界比较成熟的同步数据工具是Sqoop，它是连接关系型数据库和Hadoop的桥梁比较常用的场景是从MySQL等RDB同步到Hive、Hbase或者将Hive、Hbase的数据导出到MySQL 但是在天池技术选型时选用了用Spark来从大数据集群同步数据到大禹集群下面来比较一下这两种方式： ①Sqoop使用配置化，Spark需要代码开发学习成本上使用Spark稍微高一些

spark读取hive数据的两种方式

热门推荐

qq_42213403的博客

06-04

1万+

spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数.

java读spark hive_项目实战从0到1之Spark（3）spark读取hive数据

weixin_29442031的博客

02-13

726

1.首先将集群的这3个文件hive-site.xml，core-size.xml,hdfs-site.xml放到资源文件里(必须，否则报错)2.代码方面。下面几个测试都可以运行。1)test03.javaimport org.apache.spark.sql.SparkSession;import java.text.ParseException;public classtest03 {publi...

Spark使用Java通过HiveServer2 JDBC方式跨集群读取Hive数据

一个数据小开发的博客

01-25

2838

Spark通过HiveServer2 JDBC方式访问Hive数据(Java语言) 1、环境信息准备 jdbc连接url ，通常都是端口为10000的连接 jdbc用户名 jdbc密码 2、代码实战 public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Spark-Read-Hive-by-Java") .setMaster.

简单的spark 读写hive以及mysql

11-30

简单的spark加载HIVE MYSQL 数据，以及简单的进行往mysql,hive写入数据

Spark 读 Hive（不在一个 yarn 集群）

weixin_30316097的博客

01-25

248

方法一 1. 找到目标 Hive 的hive-site.xml 文件，拷贝到 spark 的 conf 下面。在我的情况下/etc/hive/conf/hive-site.xml ->/usr/lib/spark/conf/hive-site.xml 2. 运行期间，遇到一个问题： java.lang.NoClassDefFoundError: org/apache/...

hive 跨集群迁移

然月枕流君

01-20

7117

hive跨集群迁移数据工作中相对比较常见的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等.1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrccheck 因

spark程序跨集群操作的一点思路

永无止境

11-20

1157

现有2个集群如下： 1、hdp，使用hive和yarn，有kerberos认证 2、cdh，使用kafka和phoenix，无kerberos认证 spark程序部署在hdp客户端机器。场景1：spark streaming程序yarn client模式读取cdh kafka数据写入hdp hive，经测试在hdp客户端主机跑local模式可行，跑yarn client模式报错，org....

跨集群表数据迁移

硅谷工具人

02-02

294

1.Spark方式从老集群写到新集群 spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test") 从新集群生成hive表： spark.read.parquet("hdfs://192.20.10.10/tmp/tabledata/ods_test/").w...

关于大数据spark的Hive集群到Hive集群的方案

weixin_45758499的博客

02-14

814

object names { def main(args: Array[String]): Unit = { saveAsCsv() readCsvToHive() } //csv转成Hive表 def readCsvToHive(): Unit = { val spark = SparkSession .builder() .appName("name1")..

hive数仓数据跨集群迁移

NDF923的专栏

01-14

2351

当前集群是在局域网环境，按要求要迁到阿里云集群上（阿里云的服务器，自己搭建的大数据集群），所以要把hive中的数仓数据迁移到新的集群上。前提 hive有export和import命令（该功能是从hive0.8开始才有的），可以将hive表中的表结构和数据导入和导出。 1、export命令 EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path' 2、import命令

SparkSql拉取Hive上的数据

别人笑我太疯癫，我笑他人看不穿。

03-01

1297

想要读取Hive的数据我们首先要从集群中需要xml文件获取下来，分别是core-site.xml、hdfs-site.xml、hive-site.xml，将这三个文件放在项目的resource目录下，spark运行的时候会自动读取在原本的Spark pom文件中导入spark-hive的包，大家根据自己的scala和spark的版本去选择自己合适的，我用的如下 <dependency> <groupId>org.apache.spark</grou

Hive远程模式部署&跨集群迁移

逝无痕——kaidy

06-01

1678

文章目录部署规划元数据库MySql安装首先清除CentOS7系统中默认的数据库mariadb，否则不能安装mysql安装MySql测试MySql安装是否成功MySql远程访问授权配置hive安装安装hive配置hivehive集成MySql作为元数据库Hive跨集群迁移部署规划 ip hostname install software process 10.62.84.37 ma...

spark 读取hive 表数据