spark使用partition写入数据库

最新推荐文章于 2025-05-13 08:35:04 发布

原创最新推荐文章于 2025-05-13 08:35:04 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

本文分享了一种使用Java与Spark进行大数据处理并写入MySQL数据库的方法，通过自定义迭代器CustomIterator3实现数据的高效分区写入。该方案适用于大规模数据处理场景，展示了如何利用Spark的并行处理能力与数据库交互。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

开发十年，就只剩下这套Java开发体系了 >>>

object mappartition写入数据库 extends App{
  val spark=SparkSession.builder().appName("spark test function").master("local[*]").enableHiveSupport().getOrCreate()
  val conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/mzf_sn?characterEncoding=utf8", "root", "root")
  val sc=spark.sparkContext
  val a:RDD[Int] = sc.parallelize(1 to 1000000,2 )
  val count=a.foreachPartition(v => new CustomIterator3(v))

  class CustomIterator3(iter: Iterator[Int]) extends Iterator[Int] {
    @transient val conn = DriverManager.getConnection(
      "jdbc:mysql://localhost:3306/mzf_sn?characterEncoding=utf8",
      "root",
      "root"
    );
    println("调用分区")
    while(iter.hasNext){
      val cur=iter.next()
      val sql="insert into t_test(id) values ("+cur.toString+")"
      val stmt = conn.createStatement
      stmt.executeUpdate(sql)
    }
    override def hasNext: Boolean = {
      iter.hasNext
    }
    override def next():Int={
      val cur=iter.next()
      1
    }
  }
}