Spark jdbc(mysql) 读取并发度优化

最新推荐文章于 2024-06-12 16:14:47 发布

原创最新推荐文章于 2024-06-12 16:14:47 发布 · 830 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

34 篇文章

订阅专栏

当使用Spark从MySQL数据库大规模读取数据时，单线程任务可能导致效率低下甚至挂起。通过调整分区策略可以提升并发度。文章介绍了三种分区方法：无并发的单partition方式，基于Long类型字段分区，以及根据任意类型字段（如时间字段）分区。无并发方式会导致只有一个task运行，效率低且易引发OOM；Long类型字段分区方便但限制较多；而根据任意类型字段分区更为灵活，适合多种场景。

在Spark中使用默认提供的jdbc方法时，在数据库数据较大时经常发现任务 hang 住，其实是单线程任务过重导致，这时候需要提高读取的并发度。

单partition(无并发)

调用函数

def jdbc(url: String, table: String, properties: Properties): DataFrame

使用：

val url = "jdbc:mysql://mysqlHost:3306/database"
val tableName = "table"

// 设置连接用户&密码
val prop = new java.util.Properties
prop.setProperty("user","username")
prop.setProperty("password","pwd")

// 取得该表数据
val jdbcDF = sqlContext.read.jdbc(url,tableName,prop)


查看并发
jdbcDF.rdd.partitions.size # 结果返回 1

该操作的并发度为1，所有的数据都会在一个partition中进行操作，意味着无论给的资源有多少，只有一个task会执行任务，执行效率可想而之，并且在稍微大点的表中进行操作分分钟就会OOM。

根据Long类型字段分区

调用函数

  def jdbc(
  url: String,
  table: String,
  columnName: String,    # 根据该字段分区，需要为整形，比如id等
  lowerBound: Long,      # 分区的下界
  upperBound: Long,      # 分区的上界
  numPartitions: Int,    # 分区的个数
  connectionProperties: Properties): DataFrame

使用：

val url = "jdbc:mysql://mysqlHost:3306/database"
val tableName = "table"

val columnName = "colName"
val lowerBound = 1,
val upperBound = 10000000,
val numPartitions = 10,

// 设置连接用户&密码
val prop = new java.util.Properties
prop.setProperty("user","username")
prop.setProperty("password","pwd")

// 取得该表数据
val jdbcDF = sqlContext.read.jdbc(url,tableName,columnName,lowerBound,upperBound,numPartitions,prop)


查看并发度
jdbcDF.rdd.partitions.size # 结果返回 10

该操作将字段 colName 中1-10000000条数据分到10个partition中，使用很方便，缺点也很明显，只能使用整形数据字段作为分区关键字。

根据任意类型字段分区

调用函数

jdbc(
  url: String,
  table: String,
  predicates: Array[String],
  connectionProperties: Properties): DataFrame

下面以使用最多的时间字段分区为例：

val url = "jdbc:mysql://mysqlHost:3306/database"
val tableName = "table"

// 设置连接用户&密码
val prop = new java.util.Properties
prop.setProperty("user","username")
prop.setProperty("password","pwd")

/**
* 将9月16-12月15三个月的数据取出，按时间分为6个partition
* 为了减少事例代码，这里的时间都是写死的
* modified_time 为时间字段
*/


val predicates =
    Array(
      "2015-09-16" -> "2015-09-30",
      "2015-10-01" -> "2015-10-15",
      "2015-10-16" -> "2015-10-31",
      "2015-11-01" -> "2015-11-14",
      "2015-11-15" -> "2015-11-30",
      "2015-12-01" -> "2015-12-15"
    ).map {
      case (start, end) =>
        s"cast(modified_time as date) >= date '$start' " + s"AND cast(modified_time as date) <= date '$end'"
    }

// 取得该表数据
val jdbcDF = sqlContext.read.jdbc(url,tableName,predicates,prop)


查看并发度
jdbcDF.rdd.partitions.size # 结果返回 6