sparkStreaming初尝--scala链接mysql分析

本文介绍了一个使用 Spark Streaming 进行实时数据处理的例子。通过 JDBC 连接 MySQL 数据库,查询数据并将其转换为 RDD,再利用 Spark Streaming 进行实时处理。文章详细展示了如何设置 Maven 依赖项以及 Scala 代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本例子是我初尝 spark 的sparkStreaming官方小例子修改的。

我的思路是使用jdbc 链接数据库,然后查询数据库,将查询结果生成一个RDD ,放入RDD queue,然后每次取出rdd 进行计算和过滤处理。


本文结构如下:

  • 1.sparkStreamingDemo
  • 2.scala 链接mysql 数据库

1.sparkStreamingDemo

由于这个demo需要spark 和jdbc 的依赖包。在pom.xml文件中如下(关于新建maven 的spark工程请参考idea 构建maven 管理的spark项目

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.us.demo</groupId>
    <artifactId>mySpark</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <spark.version>2.0.2</spark.version>
        <scala.version>2.11</scala.version>
    </properties>


    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- JDBC-->

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.12</version>
        </dependency>

    </dependencies>

    <build>
        <plugins>

            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <version>2.19</version>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>

        </plugins>
    </build>

</project>

SparkStreamingDemo demo 的代码如下,我会尽量逐行增加注释:

import java.sql.{DriverManager, ResultSet}

import scala.collection.mutable.Queue
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Created by yangyibo on 16/11/23.
  */
object SparkStreamingDemo {
  def main(args: Array[String]) {

    //创建spark实例
    val sparkConf = new SparkConf().setAppName("QueueStream")
    sparkConf.setMaster("local")
    // 创建sparkStreamingContext ,Seconds是多久去Rdd中取一次数据。
    val ssc = new StreamingContext(sparkConf, Seconds(3))

    // Create the queue through which RDDs can be pushed to a QueueInputDStream
    var rddQueue = new Queue[RDD[String]]()
    // 从rdd队列中读取输入流
    val inputStream = ssc.queueStream(rddQueue)
    //将输入流中的每个元素(每个元素都是一个String)后面添加一个“a“字符,并返回一个新的rdd。
    val mappedStream = inputStream.map(x => (x + "a", 1))
    //reduceByKey(_ + _)对每个元素统计次数。map(x => (x._2,x._1))是将map的key和value 交换位置。后边是过滤次数超过1次的且String 相等于“testa“
    val reducedStream = mappedStream.reduceByKey(_ + _)
        .map(x => (x._2,x._1)).filter((x)=>x._1>1).filter((x)=>x._2.equals("testa"))
    reducedStream.print()
    //将每次计算的结果存储在./out/resulted处。
    reducedStream.saveAsTextFiles("./out/resulted")
    ssc.start()

    //从数据库中查出每个用户的姓名,返回的是一个String有序队列seq,因为生成RDD的对象必须是seq。
    val seq = conn()
    println(Seq)
     //将seq生成RDD然后放入Spark的Streaming的RDD队列,作为输入流。
    for (i <- 1 to 3) {

      rddQueue.synchronized {
        rddQueue += ssc.sparkContext.makeRDD(seq,10)
      }
      Thread.sleep(3000)
    }
    ssc.stop()
  }


//从数据库中取出每个用户的名字,是个String有序队列
  def conn(): Seq[String] = {
    val user = "root"
    val password = "admin"
    val host = "localhost"
    val database = "msm"
    val conn_str = "jdbc:mysql://" + host + ":3306/" + database + "?user=" + user + "&password=" + password
    //classOf[com.mysql.jdbc.Driver]
    Class.forName("com.mysql.jdbc.Driver").newInstance();
    val conn = DriverManager.getConnection(conn_str)
    var setName = Seq("")
    try {
      // Configure to be Read Only
      val statement = conn.createStatement(ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY)

      // Execute Query,查询用户表 sec_user 是我的用户表,有name属性。
      val rs = statement.executeQuery("select * from sec_user")
      // Iterate Over ResultSet

      while (rs.next) {
        // 返回行号
        // println(rs.getRow)
        val name = rs.getString("name")
        setName = setName :+ name
      }
      return setName
    }
    finally {
      conn.close
    }
  }
}

2.scala 链接mysql

使用SparkSession链接数据库,请点击这里 <——

scala链接数据库代码奉上

import java.sql.{Connection, DriverManager, ResultSet}

/**
  * Created by yangyibo on 16/11/23.
  */
object DB {

  def main(args: Array[String]) {
    val user = "root"
    val password = "admin"
    val host = "localhost"
    val database = "msm"
    val conn_str = "jdbc:mysql://" + host + ":3306/" + database + "?user=" + user + "&password=" + password
    println(conn_str)
    val conn = connect(conn_str)
    val statement =conn.createStatement(ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);
    // Execute Query
    val rs = statement.executeQuery("select * from sec_user")
    // Iterate Over ResultSet
    while (rs.next) {
      // 返回行号
      // println(rs.getRow)
      val name = rs.getString("name")
      println(name)
    }
    closeConn(conn)
  }

  def connect(conn_str: String): Connection = {
    //classOf[com.mysql.jdbc.Driver]
    Class.forName("com.mysql.jdbc.Driver").newInstance();
    return  DriverManager.getConnection(conn_str)
  }

  def closeConn(conn:Connection): Unit ={
    conn.close()
  }

}

scala 链接mysql所需依赖

        <!-- JDBC-->

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.12</version>
        </dependency>
### 如何使用 Scala 进行 Spark Streaming 开发 #### 1. 环境准备 为了在 Windows 上使用 Scala 和 Apache Spark 进行开发,首先需要完成必要的环境设置。这包括安装 Scala 并配置其运行环境[^4]。 ```bash # 下载并解压 Scala 安装包到指定目录 https://www.scala-lang.org/download/ # 配置环境变量 SCALA_HOME 和 PATH export SCALA_HOME=/path/to/scala export PATH=$PATH:$SCALA_HOME/bin ``` 接着,确保已正确安装 JDK,并将其路径加入 `JAVA_HOME` 中。这是因为在 JVM 上运行的应用程序(如 ScalaSpark)都需要 Java 支持。 --- #### 2. 创建 Spark Conf 和 Streaming Context 在编写 Spark Streaming 应用之前,需始化 `SparkConf` 对象来定义应用程序名称及其执行模式(本地或集群)。随后创建 `StreamingContext` 来管理流式计算任务[^3]。 ```scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} val appName = "MySparkStreamingApp" val master = "local[*]" // 或者 cluster URL 如果是在分布式环境中运行 // 始化 SparkConf val conf = new SparkConf() .setAppName(appName) .setMaster(master) // 创建 StreamingContext,每秒触发一次批处理操作 val ssc = new StreamingContext(conf, Seconds(1)) ``` 上述代码片段展示了如何构建基本的 Spark 流程框架。其中 `Seconds(1)` 表示每隔一秒会启动一个新的批次作业。 --- #### 3. 数据源接入与 DStream 处理 DStream 是 Spark Streaming 的核心抽象之一,代表连续的数据流。可以通过多种方式获取输入数据流,比如文件系统、套接字连接或者 Kafka 消息队列等[^2]。 以下是基于 Socket 输入的一个简单例子: ```scala // 接收来自网络端口的数据流 (假设服务器监听于 localhost:9999) val lines = ssc.socketTextStream("localhost", 9999) // 将每一行拆分为单词并统计频率 val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _) // 打印结果至控制台 wordCounts.print() ssc.start() // 启动 StreamingContext ssc.awaitTermination() // 等待终止信号 ``` 此部分实现了从远程主机读取文本消息的功能,并对这些字符串中的词语进行了计数分析--- #### 4. RDDs 及其转换逻辑 尽管 Spark Streaming 主要围绕着 DStreams 展开工作,但底层仍然依赖于 RDD(弹性分布式数据集),这意味着开发者也可以利用熟悉的 RDD API 设计复杂的业务流程。 例如,在上面的例子中我们调用了几个常见的方法: - **flatMap**: 把单个记录映射成多个子项; - **map**: 转换每个元素的形式; - **reduceByKey**: 按键聚合数值。 如果需求更加复杂,则可能涉及窗口函数(window functions),状态维护(stateful operations)等内容。 --- #### 总结 Scala 不仅是一种强大的编程语言,而且它还特别适合用来编写像 Spark 这样的大数据平台上的应用软件,因为两者共享相同的虚拟机架构——Java Virtual Machine(JVM)[^1]。通过本文介绍的方法论,读者应该已经掌握了怎样快速入门 Spark Streaming 的基础技能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值