sparkStreaming 连接mysql测试

最新推荐文章于 2025-05-21 15:52:24 发布

weixin_41197652

最新推荐文章于 2025-05-21 15:52:24 发布

阅读量883

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/weixin_41197652/article/details/89112124

大数据专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个使用 Scala 和 Spark Streaming 的实时数据处理应用案例。该应用通过 Socket 接收数据，并利用 RDD 对数据进行处理和统计分析后存入 MySQL 数据库。文章提供了完整的代码示例，包括如何设置 Spark 环境、数据接收、处理流程及数据库写入等关键步骤。

netcat for windows

链接：https://pan.baidu.com/s/1crvMSL4JS_ZTCcFr9CPc9w
提取码：o2yx

因为代码是在windows 写的local模式所以得下载一个netcat工具作为端口测试工具

package com.scala

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object ForeachRDDApp {
  def main(args: Array[String]): Unit = {


    val sparkConf = new SparkConf().setAppName("ForeachRDDApp").setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val lines = ssc.socketTextStream("localhost", 9998)

    val result = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)


    result.print()
    result.foreachRDD { rdd =>
      rdd.foreachPartition { partitionOfRecords =>
        // ConnectionPool is a static, lazily initialized pool of connections
        val connection = createConnection()
        partitionOfRecords.foreach(record => {
          var sql = "insert into wordcount(word, wordcount) values('" + record._1 + "'," + record._2 + ")"
          connection.createStatement().execute(sql)
        })
        connection.close()
      }
    }

    ssc.start()
    ssc.awaitTermination()
  }


  def createConnection() = {
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc:mysql://localhost:3306/test_spark","root","root")
  }
}

然后再用 nc -L -p 9998 -v 才能连接这个程序看日志说如果不先启动监听程序有可能会报错我之后会在验证