sparkstreaming
JNWsong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sparkStream+kafka实现exactlyOne第三种--Hbase
前边我们已经有了两种解决方式《sparkStream+kafka实现exactlyOne第三种--Mysql-事务》、《sparkStream+kafka实现exactlyOne第二种--Redis-pipeline》 这是第三种《sparkStream+kafka实现exactlyOne第二种--Hbase-行内事务 phoenix》,habse一行的数据 是有事务的,这一行要么都成功,要么都失败, 因此,我们可以为一个hbase表添加一个offset列族,每次写入一条数据就将offset一并写入(.原创 2021-02-27 11:04:09 · 259 阅读 · 0 评论 -
sparkStream-wordCount实现exactlyOne第二种--Redis
主要思路 将数据收集到driver端,利用redis的Pipeline写数据和偏移量,与第一种mysql的类似 但是redis pipline只有单机版redis或者主备redis才支持,集群版的redis不支持 package com.ws.sparkstreaming.kafkaredis import com.ws.sparkstreaming.utils.{JedisPool, OffsetUtils} import org.apache.kafka.clients.consumer.原创 2021-02-24 13:02:20 · 173 阅读 · 0 评论 -
sparkStream-wordCount实现exactlyOne第一种--Mysql
主要思路 1、读取历史偏移量 2、根据偏移量加载数据 kafkaUtils.createDirectStream 获取Dstream 3、遍历Dstream foreachRdd 获取到kafkaRdd 4、从kafkaRdd as获取当前偏移量kafkaRdd.asInstanceOf[HasOffsetRanges].offsetRanges 5、开启事务 6、kafkaRdd.value 获取kafka输入的数据 7、rdd转换 处理、将数据写入mysql 8、根据新...原创 2021-02-23 13:12:58 · 254 阅读 · 0 评论 -
SparkSteaming整合kafka和redis 默认偏移量
SparkSteaming整合kafka和redis,这里用的是默认偏移量 package com.ws.sparkstreaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, InputDStream} import org.apache.spark.stre.原创 2021-02-21 13:16:55 · 247 阅读 · 0 评论 -
sparkstreaming整合kafka
原创 2021-02-20 12:36:35 · 193 阅读 · 0 评论 -
sprakstreaming updateStateByKey 累计计算
updateStateByKey package com.ws.sparkstreaming import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.{Seconds, StreamingContext} object WordCountUpdateState { def原创 2021-02-20 12:27:34 · 180 阅读 · 0 评论
分享