
Kafka
Kafka
Cym02
才疏学浅 欢迎大家一起沟通,讨论
展开
-
Kafka Java API(详解与代码实战)
Producer API添加依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</version></dependency>相关APIKafkaProducer:需要创建一个生产者对象,用来发送数据。Pro原创 2020-12-10 22:50:25 · 359 阅读 · 0 评论 -
Kafak消息队列与其基础架构
消息队列的两种模式(1)点对点模式(一对一,消费者主动拉取数据,消息收到后清除)消息产生者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费信息。消息被消费后,Queue中不再有存储,所以消息消费者不可能消费已经被消费的消息,Queue支持存在多个消费者,但是对于一个消息而言,只有一个消费者可以消费。(2)发布\订阅模式(一对多,消费者消费数据之后不会清除信息)(Kafka消息队列对应的模式)消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和原创 2020-12-10 22:18:36 · 199 阅读 · 0 评论 -
RDD的容错机制 以及相关代码示例
默认策略-重新计算:如果RDD依赖关系仅是窄依赖,只需要重新计算一次故障分区就可以了;如果RDD依赖关系既有窄依赖又有宽依赖,需要重新计算故障分区之前的所有的分区数据,仅保留故障分区的数据。RDD进行持久化:将指定RDD的内容持久化自盘或者内存中;在重复计算或者结果复用时,直接从内存或者磁盘中恢复RDD的数据。RDD持久化Checkpoint:将某个计算过程数据作为检查点持久化保存到共享的分布...原创 2020-04-07 22:24:21 · 586 阅读 · 0 评论 -
RDD的依赖问题 与WordCount的原理剖析
RDD依赖关系决定了Stage拆分sc.textFile("hdfs://Spark:9000/words.txt") // 数据源RDD.flatMap(_.split(" ")) // 数据源RDD ---> FlatMap RDD.map((_,1L)) // FlatMap RDD ---> ...原创 2020-04-07 20:36:52 · 249 阅读 · 0 评论 -
Apache Spark的基本概念
Spark是一个快如闪电的统一分析引擎,用来做大规模的数据处理。快的原因:1.Spark基于内存式计算,能够提供非常高效的计算能力。2.Spark支持任务的细粒度拆分,负责的计算任务会划分多个Stage(阶段),每一个阶段都支持分布式并行计算。3.Spark计算中间计算结果支持缓存(Cache),在结束复用和故障恢复可以提供非常高效的处理性能。4.Spark框架在传统的大数据处理框架的基...原创 2020-04-04 16:53:15 · 215 阅读 · 0 评论 -
Kafka Streams的容错机制
Kafka Streams构建于Kafka本地集成的容错功能上。kafka分区具有高可用性和复制,因此当流数据持久保存到Kafka时,即使应用程序失败并需要重新处理时也可用。Kafka Streams中的任务利用Kafka消费者客户端提供的容错功能来处理故障。如果任务运行的计算机故障了,Kafka Streams会自动在其余一个正在运行的应用程序实例中重新启动该任务。Kafka Streams还...原创 2020-03-23 22:09:42 · 807 阅读 · 0 评论 -
Kafka Streams中的Windowing(窗口计算)与简单代码示例
Windowing在流式计算中将流数据按照时间划分为一个个窗口区间,对窗口区间内的数据引用计算规则,并获得窗口计算结果。Trumbling(翻滚窗口)特点:大小固定,窗口和窗口简的数据无重合相关代码:stream .flatMapValues(line -> Arrays.asList(line.split(","))) .map((k, v) -> new KeyVa...原创 2020-03-23 21:34:37 · 1617 阅读 · 0 评论 -
Kafka Streams 原理与代码实践
Kafka Streams适用于构建应用程序和微服务的客户端库,其中输入和输出数据存储在kafka集群中。它结合了在哭护短编写和部署标准Java和Scala应用程序的简便性一级kafka服务器端集群技术的优势。概述:1)kafka Streams类库用于构建实时计算处理应用2)输入和输出来源于kafka3)编程语言支持Java和Scala4)集结kafka服务器端集群技术优势(可靠,容错等...原创 2020-03-21 21:11:18 · 741 阅读 · 0 评论