将Streaming拉取的数据存入redis中

最新推荐文章于 2024-09-27 18:40:09 发布

原创最新推荐文章于 2024-09-27 18:40:09 发布 · 739 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#redis

Spark-Streaming 专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍如何使用Spark Streaming从Socket接收数据，并实时统计词频，最终将结果存入Redis数据库。通过创建Jedis连接池，优化了Redis的连接管理，提高了数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

启动redis: ./redis-cli -h hadoop01

package utils

import org.apache.commons.pool2.impl.GenericObjectPoolConfig
import redis.clients.jedis.{Jedis, JedisPool}

/**
  * 创建jedis连接池
  */
object Jpools {
   private val poolConfig = new GenericObjectPoolConfig()
  poolConfig.setMaxIdle(5)//最大的空闲连接数
  poolConfig.setMaxTotal(2000)//支持最大的连接数
  //连接池不需要对外提供访问
  private lazy val jedisPool = new JedisPool(poolConfig,"hadoop01")

  /**
    * 对外提供一个可以从池子里面获取连接的方法
    * @return
    */
  def getJedis :Jedis={
    val jedis = jedisPool.getResource
    jedis.select(1)
    jedis
  }
}

package shujuku

import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
import utils.Jpools

/**
  * 将实时统计的词频写入到redis里面
  */
object WordCountRedis {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("WordCountRedis")
    
    //每2秒钟采样一次数据
    //第二个参数是批次时间间隔,多长时间的数据集作为一个批次,这个时间不能随意设置,必须是科学合理的设置,只有这样才能稳定运行
    val ssc = new StreamingContext(conf,Seconds(3))
    //接收数据
    val words: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop01",1235)
    
    words.foreachRDD(rdd=>{
      //计算当前批次结果
      val current_batch_result: RDD[(String, Int)] = rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

      //把计算好的当前批次结果写到redis
      current_batch_result.foreachPartition(partition=>{
        //每个分区从池子里获取一个连接对象
       val jedis= Jpools.getJedis
        partition.foreach(tp=>{
        //redis的特性hincrby
          jedis.hincrBy("wordcount",tp._1,tp._2)
        })
        //用完之后,记得文明
        jedis.close()
      })
    })
    ssc.start()
    ssc.awaitTermination()
  }
}