sparkstreaming同时消费多个topic的数据实现exactly-once的语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)

import java.io.File
import kafka.{PropertiesScalaUtils, RedisKeysListUtils}
import kafka.streamingRedisHive.{dbIndex}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.TaskContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010._
import redis.RedisPool
 
object moreTopic {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.INFO)
    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.INFO)
    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath
    val spark = SparkSession.builder().appName("Spark Jason").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate()
    spark.conf.set("spark.streaming.concurrentJobs", 10)
    spark.conf.set("spark.streaming.kafka.maxRetries", 50)
    spark.conf.set("spark.streaming.stopGracefullyOnShutdown",true)
    spark.conf.set("spark.streaming.backpressure.enabled",true)
    spark.conf.set("spark.streaming.backpressure.initialRate",5000)
    spark.conf.set("spark.streaming.kafka.maxRatePerPartition", 3000)
    @transient
    val sc = spark.sparkContext
    val scc = new StreamingContext(sc, Seconds(2))
    val kafkaParams = Map[String, Object](
      "auto.offset.reset" -> "latest",
      "value.deserializer" -> classOf[StringDeserializer]
      , "key.deserializer" -> classOf[StringDeserializer]
      , "bootstrap.servers" -> PropertiesScalaUtils.loadProperties("broker")
      , "group.id" -> PropertiesScalaUtils.loadProperties("groupId")
      , "enable.auto.commit" -> (false: java.lang.Boolean)
    )
    var stream: InputDStream[ConsumerRecord[String, String]] = null
    val topics = Array("jason_20180519", "jason_0606","jason_test")
    val maxTotal = 200
    val maxIdle = 100
    val minIdle = 10
    val testOnBorrow = false
    val testOnReturn = false
    val maxWaitMillis = 5000
    RedisPool.makePool(PropertiesScalaUtils.loadProperties("redisHost"), PropertiesScalaUtils.loadProperties("redisPort").toInt, maxTotal, maxIdle, minIdle, testOnBorrow, testOnReturn, maxWaitMillis)
    val jedis = RedisPool.getPool.getResource
    jedis.select(dbIndex)
    val keys = jedis.keys(topics(0) + "*")
    val keys_2 = jedis.keys(topics(1) +"*")
    val keys_3 = jedis.keys(topics(2) +"*")
    if(keys.size() == 0 && keys_2.size() == 0 && keys_3.size() == 0){
      println("第一次启动,从头开始消费数据-----------------------------------------------------------")
      stream = KafkaUtils.createDirectStream[String, String](
        scc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
      )
    }else{
      println("不是第一次启动,从上次的offest开始消费数据-----------------------------------------------")
      stream = KafkaUtils.createDirectStream[String, String](
        scc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, RedisKeysListUtils.getRedisOffest(topics,jedis)))
    }
    jedis.close()
    stream.foreachRDD(rdd=>{
      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      rdd.foreachPartition(partition=>{
        val o = offsetRanges(TaskContext.get.partitionId)
        println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
        val jedis_jason = RedisPool.getPool.getResource
        jedis_jason.select(dbIndex)
        partition.foreach(pair=>{
          //自己的计算逻辑;
        })
        offsetRanges.foreach { offsetRange =>
          println("partition : " + offsetRange.partition + " fromOffset:  " + offsetRange.fromOffset + " untilOffset: " + offsetRange.untilOffset)
          val topic_partition_key_new = offsetRange.topic + "_" + offsetRange.partition
          jedis_jason.set(topic_partition_key_new, offsetRange.untilOffset + "")
        }
        jedis_jason.close()
      })
    })
    scc.start()
    scc.awaitTermination()
  }
}

 

<think>好的,用户想在Spring Boot中集成Kafka以实现Exactly-Once语义的消息传递。我需要先回忆一下Kafka的事务机制和Exactly-Once实现方式。 首先,Exactly-Once语义在Kafka中需要确保消息在生产者和消费者之间只被处理一次。Kafka通过事务和幂等性来实现这一点。生产者配置需要启用幂等性(enable.idempotence=true)和指定事务ID(transactional.id),这样可以防止重复消息和保证消息的顺序。 接下来,在Spring Boot中,通常使用Spring Kafka库来简化集成。需要配置KafkaTemplate为事务性的,并设置相应的生产者配置,比如acks=all来确保消息被所有副本确认。同时消费者的隔离级别应该设置为read_committed,这样消费者只会读取已经提交的事务消息。 然后,用户可能需要代码示例。需要展示如何配置生产者工厂和KafkaTemplate,以及如何在服务类中使用@Transactional注解来管理事务。此外,消费者端的配置也很重要,需要设置正确的隔离级别。 还要注意,虽然Kafka的事务可以保证Exactly-Once生产,但消费者端的处理也需要幂等性,比如通过数据库的唯一键或版本号来避免重复处理。这时候可能需要结合业务逻辑来实现端到端的Exactly-Once。 另外,用户可能遇到的问题包括配置错误、事务未正确提交或回滚,以及消费者重复消费的情况。需要提醒用户检查配置项,确保事务ID唯一,并正确处理异常。 最后,生成的相关问题应该覆盖配置细节、消费者端处理、与其他组件的整合,以及常见错误的解决方法。确保问题能帮助用户全面理解整个实现过程。</think>在Spring Boot中实现Kafka的Exactly-Once语义需要结合事务型消息传递和幂等性配置,以下是具体实现步骤: ### 一、基础配置 1. **添加依赖** ```xml <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifactId> </dependency> ``` 2. **生产者配置** ```properties spring.kafka.producer.bootstrap-servers=localhost:9092 spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer spring.kafka.producer.enable-idempotence=true # 关键配置:启用幂等性[^1] spring.kafka.producer.transactional.id=txn-producer-1 # 事务ID必须唯一 ``` ### 二、事务型消息发送 ```java @Configuration public class KafkaConfig { @Bean public ProducerFactory<String, String> producerFactory() { Map<String, Object> configProps = new HashMap<>(); // 基础配置省略... configProps.put(ProducerConfig.ACKS_CONFIG, "all"); // 确保所有副本确认 return new DefaultKafkaProducerFactory<>(configProps); } @Bean public KafkaTemplate<String, String> kafkaTemplate() { KafkaTemplate<String, String> template = new KafkaTemplate<>(producerFactory()); template.setTransactionIdPrefix("txn-"); // 设置事务ID前缀 return template; } } @Service public class TransactionalService { @Transactional("kafkaTransactionManager") public void sendWithTransaction(String topic, String message) { kafkaTemplate.send(topic, message); // 业务逻辑与消息发送在同一个事务中 databaseOperation(); // 假设有数据库操作 } } ``` ### 三、消费者配置 ```properties spring.kafka.consumer.bootstrap-servers=localhost:9092 spring.kafka.consumer.group-id=exactly-once-group spring.kafka.consumer.isolation.level=read_committed # 关键配置:仅读取已提交消息 ``` ### 四、Exactly-Once完整实现 1. **生产者端保证** - 启用幂等性(idempotence) - 配置唯一的事务ID(transactional.id) - 使用`@Transactional`注解管理事务边界 2. **消费者端保证** - 使用`read_committed`隔离级别 - 结合本地数据库事务实现消费幂等性 ```java @KafkaListener(topics = "exactly-once-topic") public void listen(String message, Acknowledgment ack) { try { // 在本地事务中处理消息 transactionTemplate.execute(status -> { processMessage(message); // 业务处理 saveToDatabase(message); // 数据库操作 ack.acknowledge(); // 手动提交offset return null; }); } catch (Exception e) { // 处理异常,可能需要死信队列 } } ``` ### 五、注意事项 1. 事务ID必须唯一且稳定,重启后保持不变 2. 消费者需要处理重复消息(即使配置了Exactly-Once) 3. 事务超时时间需合理设置(默认60秒) 4. 需要Kafka broker版本>=0.11 $$ \text{事务完整性公式:} \quad P_{\text{produce}} \cap C_{\text{consume}} \cap D_{\text{db}} = \text{Exactly-Once} $$
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值