spark更新mysql数据

在提交Spark的jar包执行任务时,需要包含mysql-connector-java-5.1.41-bin.jar作为依赖,以便进行MySQL的数据操作。
import java.sql.{Connection, DriverManager}
import java.util.Properties

import org.apache.spark.sql.{DataFrame, SparkSession}

object Test01 {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()
      .appName("Test01")
      .master("local[*]")
      .enableHiveSupport()
      .getOrCreate()
    import spark.implicits._
    //mysql的参数设置
    val url = "jdbc:mysql://192.168.245.131:3306/database"
    val user = "root"
    val password = "hadoop"
    val props = new Properties()
    props.put("user", user)
    props.put("password", password)
    props.setProperty("useSSL", "false")
    props.setProperty("useUnicode", "true")
    props.setProperty("characterEncoding", "utf8")
    
    var connection: Connection = null
    val seq: Seq[(Int, Int, Double)] = Seq((66666896,252666555,1001348.64),(66666669,3356533,999),(66666670,4444,8888))
    val df01: DataFrame = seq.toDF("userid","amount","changeamount")
    df01.show(false)
    df01.foreachPartition(tmp=>{
      try{
        classOf[com.mysql.jdbc.Driver]
        connection=DriverManager.getConnection(url,props)
        while (tmp.hasNext){
          val row = tmp.next()
          val unit = row.getAs[Int]("userid")
          val i = row.getAs[Int]("amount")
          val changeamount = row.getAs[Double]("changeamount")
          val df03 = s"update superset.test1 set  amount=$i  where userid = $unit and changeamount=$changeamount"
          println(df03)
          connection.createStatement().executeLargeUpdate(df03)
        }
      }catch {
        case e:Exception=>println(e.printStackTrace())
      }finally {
        connection.close()
      }
    })
    df.show(false)
  }
}

如果用submit执行spark的jar包,就需要上传mysql的连接jar包,

mysql-connector-java-5.1.41-bin 这个包名

在您提供的引用中,同事的实时分析脚本在批量更新MySQL数据时遇到了问题。问题的根源是脚本在RDD的foreachPartition方法内使用事务批量更新MySQL时,由于事务未提交,导致整个索引范围的表被排他锁定,从而引发了锁表问题。为了解决这个问题,可以将partition中的所有更新操作先记录下来,然后在driver节点上汇总这些操作并一并更新MySQL。这种方式虽然增加了网络传输和并行计算的开销,但是为了保证数据的安全性,这样的做法是值得的。 对于spark批量更新MySQL数据的问题,可以借鉴以上解决方案,将每个partition中的更新操作先记录下来,最后在driver节点上进行汇总和批量更新。这样可以避免并行更新时的锁表问题,确保更新的安全性和稳定性。 此外,问题中还提及到了全局资源和局部操作不一致导致的问题。在分布式计算中,为了实现并行计算,数据会被切分成多份,每份相互独立且没有依赖关系。如果需要进行全局操作,应该在Reduce阶段之后进行。尽管现在对于数据分析师来说,直接编写MapReduce已经不是常见的做法,但理解MapReduce的思想对于理解分布式计算的基础仍然具有重要作用。 因此,在spark中批量更新MySQL数据时,可以参考以上解决方案,并注意全局资源和局部操作的一致性,确保数据的完整性和并行计算的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值