
Kafka
文章平均质量分 68
29DCH
In me the tiger sniffs the rose.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
整合Flume和Kafka完成实时数据采集
结合我的这三篇博客 Flume应用案例之两台服务器之间进行实时数据采集和分布式消息队列Kafka简介及环境安装部署Flume应用案例之监控一个文件实时采集新增的数据输出到控制台把avro-memory-logger.conf改成avro-memory-kafka.conf内容如下:avro-memory-kafka.sources = avro-sourceavro-memory-ka...原创 2018-10-19 15:37:28 · 543 阅读 · 0 评论 -
分布式消息队列Kafka简介及环境安装部署
最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Kafka来作为消息队列,所以在这里总结一下Kafka的用法及原理.Kafka是由Apache软件基金会开发的一个分布式开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础...原创 2018-10-17 17:07:18 · 513 阅读 · 0 评论 -
Kafka容错性测试
紧接我的上一篇博客 分布式消息队列Kafka简介及环境安装部署这里对kafka的容错性进行测试由图可以看出,此时有三个kafka进程,副本因子为3,leader是1号block,2,3号是从block,并且此时1,2,3号节点均存活这个时候我们将3号block的进程强制结束掉kill -9 20023现在可见活的节点只有1,2了这个时候把leader 1干掉清晰可见,leade...原创 2018-10-17 20:52:04 · 785 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Maven项目下的pom.xml文件加入如下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifac原创 2018-11-30 22:12:46 · 313 阅读 · 0 评论 -
Spark Streaming消费Kafka的数据进行统计
流处理平台:这里是第四步的实现:Spark Streaming整合Kafka采用的是Receiver-based,另一种方式Direct Approach,稍作修改就行。package sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org....原创 2018-12-06 13:05:16 · 1341 阅读 · 0 评论