SparkSQL之关联mysql和hive查询

最新推荐文章于 2024-04-13 21:19:08 发布

原创最新推荐文章于 2024-04-13 21:19:08 发布 · 608 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

33 篇文章

订阅专栏

本文介绍如何创建Mysql和Hive数据库，包括表结构设计、数据导入及使用Spark进行JOIN操作。通过具体示例，展示从文本文件导入数据到Hive表，以及连接Hive和Mysql数据进行综合查询的过程。

创建Mysql数据库

CREATE DATABASE spark;
USE spark;

CREATE TABLE DEPT(
DEPTNO int(2) PRIMARY KEY,
DNAME VARCHAR(14),
LOC VARCHAR(13)
);

INSERT INTO DEPT VALUE(10, 'ACCOUNTING','NEW YORK');
INSERT INTO DEPT VALUE(20, 'RESEARCH','DALAS');
INSERT INTO DEPT VALUE(30, 'SALES','CHICAGO');
INSERT INTO DEPT VALUE(40, 'OPERATIONS','BOSTON');

创建Hive数据库

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

准备文本数据emp.txt：

1       tom     clerk   9088    1980-12-09      800.0   NULL    20
2       vincent cl      9999    1992-03-04      1000.0  300.1   30
5       sofia   salesman        8000    1996-02-22      100.0   908     20

将数据导入到hive中：
hive> load data local inpath '/home/iie4bu/data/emp.txt' overwrite into table emp;

JOIN操作

package cn.ac.iie.spark

import org.apache.spark.sql.SparkSession

/**
 * 使用外部数据源综合查询Hive和Mysql的表数据
 */
object HiveMysqlApp {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("HiveMysqlApp").master("local[2]").getOrCreate()
    // 加载hive表数据
    val hiveDF = spark.table("emp")
    // 加载mysql数据
    val mysqlDF = spark.read
      .format("jdbc")
      .option("url", "jdbc:mysql://swarm-manager:3306")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("dbtable", "spark.DEPT")
      .option("user", "root")
      .option("password", "123456")
      .load()
    // JOIN
    val resultDF = hiveDF.join(mysqlDF,hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))     resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),mysqlDF.col("deptno"),mysqlDF.col("dname")).show()
    resultDF.show()
    spark.close()
  }
}