Spark远程连接Hive数据源

最新推荐文章于 2024-08-01 10:26:09 发布

原创

最新推荐文章于 2024-08-01 10:26:09 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #idea #Hive

本博客详细介绍了如何在Windows环境下，使用IntelliJ IDEA配置Spark项目，实现远程连接到Hive数据仓库。首先，需要下载winutils.exe并放置在HADOOP_HOME/bin目录下，以模拟Linux环境。接着，讨论了配置scala文件、hive-site.xml、hdfs-site.xml和core-site.xml的过程。在实践中可能会遇到错误，但通过特定的解决方案，可以成功解决这些错误，实现IDEA上的Spark与Hive无缝对接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下载winutils.exe，放到HADOOP_HOME/bin下，模拟linux环境

scala文件

    // 连接hive数据仓库
    val sparkSession = SparkSession.builder().appName("HiveCaseJob").master("local[*]").enableHiveSupport().getOrCreate()

    sparkSession.sql("show databases").show()
    sparkSession.sql("select * from dbtaobao.user_log").show()
    val user_log = sparkSession.sql("select * from dbtaobao.user_log").collect()
    val test = user_log.map(row => "user_id"+row(0))
    test.map(row => println(row))

hive-site.xml

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://192.168.126.130:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>