SparkSQL开发工具类

SparkSQL开发实用工具类详解

最新推荐文章于 2024-08-21 16:09:49 发布

原创

最新推荐文章于 2024-08-21 16:09:49 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

本文主要总结了SparkSQL在开发过程中常用的工具类，包括数据读写、查询优化及性能提升等方面的关键功能，旨在帮助开发者更高效地利用SparkSQL进行大数据处理。

SparkSQL开发工具类总结


import java.text.SimpleDateFormat
import java.util.{Calendar, Date, Properties}

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}


object SparkUtil {
  /**
    * 获取sparkSession
    *
    * @return
    */
  def getSparkSession: SparkSession = {
    val sparkSession = SparkSession.builder().master("yarn").getOrCreate()
    sparkSession
  }

  /**
    * 从Mysql中读表并创建临时表
    *
    * @param sparkSession
    * @param table
    */
  def readFromMysql(sparkSession: SparkSession, table: String): DataFrame = {
    val username = getProperty("/jdbc.properties", "jdbc.username")
    val password = getProperty("/jdbc.properties", "jdbc.password")
    val url = getProperty("/jdbc.properties", "jdbc.url")
    val properties = new Properties()

    properties.setProperty("user", username)
    properties.setProperty("password", password)
    sparkSession.read.jdbc(url, table, properties)
  }

  /**
    * @param sparkSession