SparkStreaming 关于kafka偏移量的管理Redis篇

         在开发java SparkStreaming的时候一定会遇到kafka偏移量管理的问题上,因为需要考虑到各式各样的容灾处理。如果我们采用kafka来自行处理kafka偏移量的话非常简单,因为kafka本身就有这个机制可以定时存储消费者分组的偏移量,但是这样会有重复消费的情况还有就是如果采用这种方式那么就是将kafka的offset全部交给kafka管理,本人在这里是不太推荐的,因为如果是要做大数据的情况下,那么kafka的的数据其实也是内存和磁盘存储的,如果数据量上来了,无疑也是对kafka集群的一种压力。因为我们项目在实际开发中的时候,遇到数据峰值很高的时候kafka集群的磁盘io是特别高的这样是非常不安全的。还有就是我们的计算任务也是不允许有重复计算这样操作出现,但是在项目初期可以存在。所以我们决定先使用spark本身的checkpoint来做偏移量管理,尽管这么做确实很多弊端,但是对于项目初期来说也是比较管用的,就是每次更新jar包非常麻烦。之后项目开始渐渐稳定下来了我们开始处理kafka的偏移量问题,接下来我将详细的介绍一下我们对于kafka偏移量的处理过程,这些内容呢对于新手开发我觉得是比较有用的,非常欢迎老鸟来进行批评和改正,开始内容:

对于使用redis存储的好处就是时效性较高而且他还有定时将数据持久化到本地磁盘的机制所以对于我们存储kafka偏移量来说非常合适,因为实时任务对于组件的实时性能有很高的要求,那么redis本身是内存式存储,而且提供给我们那么多的数据结构,非常灵活,而且redis处理百万级别的数据量来说也是没有问题的吗(这里我们用的是reids集群模式一个主两个从所以集群非常稳定)。

这里呢我们是使用java来编写的sparkstreaming任务,那么接下来我也是用java代码进行介绍。创建Dstream的初始化过程我不多讲了,因为这个东西上网一查一大片,而且这些也不是我们今天主要将的内容我就直接上图吧

在上图我们可以看到我在创建Dstream的时候参数多放了一个topicPartitionLongMap 而且对于自动存储偏移量的默认值就行了修改变成flase因为我们将自己管理kafka偏移量。那个关于topicPartitionLongMap的参数是我们自己对于kafka便宜量的定义。这个参数怎么来的呢,别急我们慢慢来。

我这里使用spark的广播变量将存储kafka偏移量的redis广播出去,这样是一种对程序的优化,不用每个节点上都保存一份RedisKafkaOffset对象,直接上代码:

            对于redis的链接和初始化我就不做过多的讲解,大家如果可以上网查找一下相关资料。大家看到我对key进行了按!切割了一下,这个是我在往redis提交kafka主题和分区的时候做的key值拼接,之后在更新redis偏移量的时候可以看到我提交的key是什么样子的大家就明白了,keys【0】是当前这个消费者分组消费过的topic,keys【1】是这个topic的分区,value值是这个消费者分组在这个topic的当前分区下的偏移量(offset),我们将一个个关于topic和topic分区的偏移量放进一个map集合。在之后我们初始化DStream的时候我们会用到这个参数来自定义当前的这个消费者需要消费的偏移量是多少。

            接下来就是向redis中更新offset的代码

        大家看到了我在这个方法中传入了一个参数是OffsetRange数组,然后遍历这个数组每一个offsetRange都可以得到他的topic和对应的分区,这里我们传入redis的大key就是消费者分组,然后里面的小key就是我们上面说的用!来分割topic和分区,他的value值就是当前这组数据起始偏移量,spark任务是批次处理数据所以当我们获取到这批任务的开始的时候将起始下标更新到redis,offsetRange.fromOffset() 调用这个方法就是获取当前这个topic的这个分区中开始的偏移量 这个不难理解。

        接下来就是向redis中提交处理完这一批次offset的代码

        这里我们是将spark任务结束的这一批次offset提交到redis中进行保存,跟上面一样大key,小key的设置,这里的offset.untilOffset()这个方法就是获取这一批次结束的偏移量 这里也是不难理解

这里提一下OffsetRange是获取的哪个包下面: org.apache.spark.streaming.kafka010.OffsetRange

工具写好了,那么我们接下来开始使用这些方法:

       当我们初始化kafka信息的时候我建议用auto.offset.reset->earliest 当我们第一次读取kafka消息的时候我们将从第一位下标开始读取数据。

当spark任务初始化任务的时候将我们构建好的RedisKafkaOffset对象广播出去

     

 

然后将我们获取到的topicPartitionLongMap传进我们刚才说到的createStringJob方法里面。这样我们就构建好"JavaInputDStream" javaDstream流了。

开始我们的spark代码:

当我们进行遍历rdd的时候一定要先把OffsetRange[] offsetRanges = ((HasOffsetRanges) rdd.rdd()).offsetRanges();这行代码放到第一行,然后就可以利用广播遍历进行offset的更新。

commitOffset这行代码一定是要在foreachRdd的最后执行

好了我们的利用redis对spark消费kafka进行更新kafka的offset这里就结束了,其实这个自己管理offset没有那么复杂的处理逻辑就是利用各个组件之间的api就可以操作,然后在本地和线上测试几下就能完全掌握

 

-------------------------------------------------------------------关于offset的存储其他方式--------------------------------------------------------------------

如果上网查找存储偏移量方法的时候大多会出现将偏移量存储在zk,hdfs,kafka等中间件,首先kafka刚刚我们已经说过了,现在我们将说说存在zk和hdfs上的问题,如果将offset存储在zk上面,spark程序频繁对zk进行写入操作,那么就会造成zk的io过高,一会的时间zk就会承受不住就是把这个访问关闭,而spark任务也会随之停止。这个问题也是我在开发过程遇到的,如果能用zk固然好,因为zk有一致和稳固的特性,偏移量如果能存在zk中其实是好的但是效率不高,所以就舍弃这种方法了,接下来我将展示spark与zk交互的代码,并带上注解:

别着急会在以后更新

 

 

 

<think>我们正在讨论SparkStreaming集成KafkaRedis的示例。根据用户的问题,我们需要提供在SparkStreaming中从Kafka读取数据并将处理后的结果写入Redis的示例代码和最佳实践。参考引用:[^1]提到:SparkStreaming可以集成多种输入源,如Kafka、Flume等,并将转换后的数据加载到HDFS或数据库(包括Redis)中。[^2]和[^3]提供了一些Kafka的基本信息,包括Kafka的组成和基本命令,但我们的重点在于SparkStreaming的集成。步骤:1.添加依赖:在项目中添加SparkStreamingKafkaRedis的依赖。2.创建SparkStreaming上下文。3.配置Kafka参数并创建DStream。4.处理数据:对从Kafka获取的数据进行转换操作。5.将处理后的数据写入Redis。依赖(以Maven为例):```xml<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.12</artifactId><version>3.1.2</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.12</artifactId><version>3.1.2</version></dependency><dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.6.0</version></dependency>```示例代码:假设我们从一个Kafka主题读取字符串消息,进行简单的处理(例如计数),然后将结果存储Redis。注意:在实际生产环境中,需要考虑连接管理、序列化、错误处理等。示例:单词计数并将结果写入Redis```scalaimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.streaming.kafka010._importorg.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistentimportorg.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimportredis.clients.jedis.JedisobjectKafkaRedisWordCount{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("KafkaRedisWordCount")valssc=newStreamingContext(conf,Seconds(5))valkafkaParams=Map[String,Object]("bootstrap.servers"->"localhost:9092","key.deserializer"->"org.apache.kafka.common.serialization.StringDeserializer","value.deserializer"->"org.apache.kafka.common.serialization.StringDeserializer","group.id"->"spark-streaming-group","auto.offset.reset"->"latest","enable.auto.commit"->(false:java.lang.Boolean))valtopics=Array("test-topic")valstream=KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe[String,String](topics,kafkaParams))//提取消息的值(字符串)vallines=stream.map(record=>record.value())valwords=lines.flatMap(_.split(""))valwordCounts=words.map(word=>(word,1)).reduceByKey(_+_)//将每个批次的词频统计结果写入RediswordCounts.foreachRDD{rdd=>rdd.foreachPartition{partitionOfRecords=>//每个分区创建一个Jedis连接(避免每条记录都创建连接)valjedis=newJedis("localhost",6379)partitionOfRecords.foreach{case(word,count)=>//使用Redis的哈希结构,键为"wordCount",字段为单词,值为计数(累加)jedis.hincrBy("wordCount",word,count)}jedis.close()}}ssc.start()ssc.awaitTermination()}}```最佳实践:1.连接管理:在`foreachPartition`中创建连接,避免在每条记录上创建连接的开销。2.错误处理:在实际应用中,需要添加异常处理,并考虑连接池(如JedisPool)来复用连接。3.序列化:确保数据正确序列化。4.偏移量管理Kafka偏移量可以手动管理,例如在Redis存储偏移量以实现精确一次语义(exactly-once)。偏移量管理示例:我们可以将每个批次的偏移量存储Redis中,并在启动时从Redis读取偏移量。但注意,这需要更复杂的代码来处理偏移量的提交和恢复。由于用户要求的是示例,以上代码提供了一个基本框架。注意:上述代码中,我们没有管理Kafka偏移量,这意味着如果应用重启,它将从最新的偏移量开始(根据auto.offset.reset配置)。如果需要精确控制偏移量,可以参考以下步骤:-在Redis存储每个分区的偏移量(例如,使用键如"topic:partition"存储偏移量值)。-在创建DStream时,使用`ConsumerStrategies.Assign`指定起始偏移量(从Redis读取)。-在处理完一个批次后,将处理完成的分区偏移量写入Redis。但是,这超出了简单示例的范围,用户可以根据需要进一步研究。以上代码和说明提供了SparkStreaming集成KafkaRedis的基本方法。</think>### Spark Streaming 集成 KafkaRedis 示例 在 Spark Streaming 中集成 KafkaRedis 涉及三个主要步骤:**从 Kafka 消费数据Spark Streaming 处理 → 结果写入 Redis**。以下是完整示例代码和最佳实践: #### 1. Maven 依赖配置 ```xml <dependencies> <!-- Spark Streaming --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.1.2</version> </dependency> <!-- Kafka 集成 --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.1.2</version> </dependency> <!-- Redis 客户端 --> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.7.0</version> </dependency> </dependencies> ``` #### 2. Scala 核心代码示例 ```scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.kafka010._ import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe import redis.clients.jedis.Jedis object KafkaRedisIntegration { def main(args: Array[String]): Unit = { // 1. 创建 Spark Streaming 上下文 val conf = new SparkConf().setAppName("KafkaRedisDemo").setMaster("local[*]") val ssc = new StreamingContext(conf, Seconds(5)) // 2. Kafka 配置参数 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "kafka-broker1:9092,kafka-broker2:9092", // Kafka集群地址[^2] "key.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer", "value.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer", "group.id" -> "spark-redis-group", "auto.offset.reset" -> "latest", "enable.auto.commit" -> (false: java.lang.Boolean) ) // 3. 订阅 Kafka 主题 val topics = Array("sensor-data") // Kafka主题名称[^3] val kafkaStream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams) ) // 4. 数据处理(示例:解析JSON并过滤) val processedData = kafkaStream.map(record => { val json = parseJson(record.value()) // 自定义JSON解析函数 (json("deviceId"), json("temperature").toDouble) }).filter { case (_, temp) => temp > 50.0 } // 过滤高温数据 // 5. 写入 Redis processedData.foreachRDD { rdd => rdd.foreachPartition { partition => // 每个分区建立单次Redis连接(高性能实践) val jedis = new Jedis("redis-server", 6379) partition.foreach { case (deviceId, temp) => // 使用哈希表存储设备温度:HSET device:temperatures deviceId temperature jedis.hset("device:temperatures", deviceId, temp.toString) } jedis.close() } } // 6. 启动流处理 ssc.start() ssc.awaitTermination() } // 简易JSON解析函数(实际项目建议使用Jackson) def parseJson(jsonString: String): Map[String, String] = { jsonString.stripPrefix("{").stripSuffix("}") .split(",") .map(_.split(":")) .map(arr => (arr(0).trim.replace("\"", ""), arr(1).trim.replace("\"", ""))) .toMap } } ``` #### 3. 最佳实践说明 1. **连接管理优化**: - 使用 `foreachPartition` 而非 `foreach`,每个分区共享一个 Redis 连接 - 考虑使用 JedisPool 实现连接池(高并发场景必需) 2. **数据一致性保障**: ```scala // 精确一次语义实现伪代码 kafkaStream.foreachRDD { rdd => val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges rdd.foreachPartition { iter => val jedis = jedisPool.getResource try { iter.foreach { data => jedis.hset(...) } // 成功处理后提交offset offsetRanges.foreach { range => storeOffsetInRedis(jedis, range) // 自定义存储offset到Redis } } finally { jedis.close() } } } ``` 3. **Redis 数据结构选择**: - 实时指标:`INCRBY`/`HINCRBY` 实现计数器 - 时间序列数据:`ZSET` 存储带时间戳的数据 - 去重操作:`SET` 存储唯一标识符 4. **性能调优**: - 启用 Redis 管道操作:`jedis.pipelined()` - 调整 Spark 批次间隔:根据数据量选择 1-10 秒 - 使用 Kryo 序列化优化 Spark #### 4. 部署注意事项 1. **Kafka 配置**: - 确保分区数量 ≥ Spark 的 executor 数量 - 启用 Kafka 认证(生产环境必需): ```scala kafkaParams += ("security.protocol" -> "SASL_SSL") kafkaParams += ("sasl.mechanism" -> "PLAIN") ``` 2. **Redis 高可用**: - 使用 Redis Sentinel 或 Cluster 模式 - 配置连接失败重试机制 > **关键提示**:在 Spark Structured Streaming 中,可使用 `spark-redis` 包实现更简洁的集成: > ```scala > df.write.format("org.apache.spark.sql.redis") > .option("table", "device:temperatures") > .option("key.column", "deviceId") > .save() > ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云谱科技工作室计算机毕设

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值