spark3.x 生产调优笔记

最新推荐文章于 2024-03-22 16:56:41 发布

原创

最新推荐文章于 2024-03-22 16:56:41 发布 · 置顶 · 1.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #大数据

1 spark sql写入mysql非常慢

有这样一个业务场景：需要将通过Spark处理之后的数据写入MySQL，并在在网页端进行可视化输出。Spark处理之后有大概40万条数据，写入MySQL却要耗费将近30分钟，这也太慢了！
后来翻看了Spark向JDBC数据源写数据的那部分源码，虽然源码中的实现使用的确实是PreparedStatement 的addBatch()方法和executeBatch()方法，但是我们再去翻看executeBatch()方法的实现后发现，它并不是每次执行一批插入，而是循环的去执行每条insert插入语句，这就造成只插入一条数据，而不是一批数据，导致大多数的时间都耗费在了与数据库的交互连接上了
解决方法：

jdbc.saas.url=jdbc:mysql://172.25.1.*/saas-hospital?characterEncoding=utf-8&useSSL=false&rewriteBatchedStatements=true

2 spark sql jdbc并发分区

jdbcDF.rdd.partitions.size # 结果返回 1。该操作的并发度为1，你所有的数据都会在一个partition中进行操作，意味着无论你给的资源有多少，只有一个task会执行任务，执行效率可想而之，并且在稍微大点的表中进行操作分分钟就会OOM。

def jdbc(
  url: String,
  table: String,
  columnName: String,    # 根据该字段分区，需要为整形，比如id等
  lowerBound: Long,      # 分区的下界
  upperBound: Long,      # 分区的上界
  numPartitions: Int,    # 分区的个数
  connectionProperties: Properties): DataFrame

#指定字段区间分区
val predicates =
    Array(
      "2015-09-16" -> "2015-09-30",
      "2015-10-01" -> "2015-10-15",