Spark SQL 操作 Hive 表数据

最新推荐文章于 2024-11-06 20:40:06 发布

原创最新推荐文章于 2024-11-06 20:40:06 发布 · 2.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#SparkSQL 操作 Hive #SparkSQL 保存 parquet 到 hdfs #SparkSession 操作 Hive #SparkSession

大数据同时被 3 个专栏收录

25 篇文章

订阅专栏

Spark

21 篇文章

订阅专栏

Spark

21 篇文章

订阅专栏

本文详细介绍了如何使用Spark Shell及编程方式操作Hive，包括显示表、查询数据、执行join操作，并提供了具体代码示例，展示了如何从Hive读取数据并将其写入Parquet文件。

spark-shell 方式操作 Hive

show tables

select * from emp

join 操作

总结：和 HQL 语法一毛一样，只是记得使用如下格式 spark.sql(" xxxxxx ").show 即可

如果嫌麻烦，还可以直接使用 spark-sql 进行查询，直接写 sql 即可操作 hive，如下

结果为：

编程方式操作 Hive

代码如下

object SparkSQLHiveDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .config("spark.sql.warehouse.dir", "/spark-warehouse").enableHiveSupport().getOrCreate()
    //读取 hive 表中的数据
    spark.sql("select e.empno,e.ename,e.job,e.mgr,e.comm from emp e join dept d on e.deptno = d.deptno")
      .filter("comm is not null")
      .write.parquet("/demp");
    spark.close()
  }
}

打包提交到服务器，执行 spark-submmit 运行 jar

./spark-submit --class sparkSql.SparkSQLHiveDemo \
--master spark://hadoop102:7077 \
--jars /opt/module/hive-1.2.2/lib/mysql-connector-java-5.1.27-bin.jar 
/home/hadoop/SparkLearning-0.0.1-SNAPSHOT-jar-with-dependencies.jar

执行结果为