
sparkStreaming
文章平均质量分 60
YZY_001
这个作者很懒,什么都没留下…
展开
-
SparkStreaming整合Kafka-0.8的官方文档要点翻译
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher) Note: Kafka 0.8 support is deprecated as of Spark 2.3.0. Here we explain how to configure Spark Streaming to receive ...转载 2018-12-27 22:41:55 · 348 阅读 · 0 评论 -
[技术应用] 将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
问题导读: 1. 使用Direct API时为什么需要见offset保存到Zookeeper中? 2. 如何将offset存入到Zookeeper中? 3. 如何解决Zookeeper中offset过期问题? 实现将offset存入Zookeeper 在 Spark Streaming 中消费 Kafka 数据的时候,有两种方式分别是 1)基于 Receiver-based 的 createS...转载 2018-12-28 21:55:06 · 455 阅读 · 0 评论 -
Spark Streaming消费Kafka Direct方式数据零丢失实现之redis
一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。 二、使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢...转载 2018-12-23 16:54:54 · 549 阅读 · 0 评论 -
CustomDirectKafkaExample.scala
package main.scala object CustomDirectKafkaExample { private val conf = ConfigFactory.load() private val sparkStreamingConf = conf.getStringList("CustomDirectKafkaExample-List").asScala转载 2018-12-24 11:39:09 · 425 阅读 · 1 评论 -
关于SparkStreaming的checkpoint的弊端
框架版本 spark2.1.0 kafka0.9.0.0 当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟能否做到数据不丢不重呢? 也就是通常我们所说的高可靠和稳定性,通常框架里面都带有不同层次的消息保证机制,一般来说有三种就是: at ...转载 2018-12-24 12:40:33 · 268 阅读 · 0 评论