
kafka
文章平均质量分 92
wisgood
这个作者很懒,什么都没留下…
展开
-
apache kafka技术分享系列(目录索引)
目录索引:Kafka使用场景1.为何使用消息系统2.我们为何需要搭建Apache Kafka分布式系统3.消息队列中点对点与发布订阅区别kafka开发与管理:1)apache kafka消息服务2)kafak安装与使用3)apache kafka中server.properties配置文件参数说明4)Apa转载 2016-05-24 13:57:44 · 1086 阅读 · 0 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.转载 2017-02-17 15:16:57 · 861 阅读 · 0 评论 -
Flume 中文件channel VS 内存channel (File Channel VS Memory Channel)
当设计Flume数据流程图时,决定使用什么类型的channel将是至关重要的。在写这篇文章是,当前有几个channel可供选择,分别是Memory Channel, JDBC Channel , File Channel,Psuedo Transaction Channel。比较常见的是前三种channel。具体使用那种channel,需要根据具体的使用场景。这里我详细讲解File Channel转载 2017-02-14 17:36:51 · 6630 阅读 · 0 评论 -
Kafka Mirror Maker Best Practices
Short Description:Best Practices in running Kafka Mirror MakerArticleKafka's mirroring feature makes it possible to maintain a replica of an existing Kafka cluster. This tool uses Kafka cons转载 2017-07-25 13:07:27 · 1576 阅读 · 0 评论 -
kafka consumer防止数据丢失
kafka最初是被LinkedIn设计用来处理log的分布式消息系统,因此它的着眼点不在数据的安全性(log偶尔丢几条无所谓),换句话说kafka并不能完全保证数据不丢失。 尽管kafka官网声称能够保证at-least-once,但如果consumer进程数小于partition_num,这个结论不一定成立。 考虑这样一个case,partiton_num=2,启转载 2017-07-25 13:25:24 · 3642 阅读 · 0 评论 -
Kafka无消息丢失配置
Kafka到底会不会丢数据(data loss)? 通常不会,但有些情况下的确有可能会发生。下面的参数配置及Best practice列表可以较好地保证数据的持久性(当然是trade-off,牺牲了吞吐量)。笔者会在该列表之后对列表中的每一项进行讨论,有兴趣的同学可以看下后面的分析。block.on.buffer.full = trueacks = allretries = MAX_VAL转载 2017-07-25 14:08:35 · 3201 阅读 · 0 评论 -
Spark踩坑记——Spark Streaming+Kafka
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己转载 2017-07-26 10:22:01 · 2750 阅读 · 1 评论 -
如何确定Kafka的分区数、key和consumer线程数
在Kafak中国社区的qq群中,这个问题被提及的比例是相当高的,这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。 怎么确定分区数? “我应该选择几个分区?”——如果你在Kafka中国社区的群里,这样的问题你会经常碰到的。不过有些遗憾的是,我们似乎并没有很权威的答案能够解答这样的问题。其实这也不奇怪,毕竟转载 2016-10-17 11:45:44 · 5842 阅读 · 1 评论 -
在CentOS 7上安装Kafka
简介Kafka 是一种高吞吐的分布式发布订阅消息系统,能够替代传统的消息队列用于解耦合数据处理,缓存未处理消息等,同时具有更高的吞吐率,支持分区、多副本、冗余,因此被广泛用于大规模消息数据处理应用。Kafka 支持Java 及多种其它语言客户端,可与Hadoop、Storm、Spark等其它大数据工具结合使用。本教程主要介绍Kafka 在Centos 7上的安装和使用,包括功能验证转载 2016-05-25 11:59:33 · 16380 阅读 · 1 评论 -
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现转载 2016-07-03 16:51:48 · 13358 阅读 · 2 评论 -
这几天折腾spark的kafka的低阶API createDirectStream的一些总结。
大家都知道在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,一个是老版本中有的createStream方法,还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点,官方已经说的很详细(http://spark.apache.org/docs/latest/streaming-kafka-integration.html),总之就是cr转载 2016-07-03 16:52:51 · 1751 阅读 · 0 评论 -
Kafka的Log存储解析
Kafka的Log存储解析标签(空格分隔): kafka引言Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和pa转载 2016-10-21 20:03:55 · 548 阅读 · 0 评论 -
Kafka Producer相关代码分析
Kafka Producer相关代码分析标签(空格分隔): kafkaKafka Producer将用户的消息发送到Kafka集群(准确讲是发送到Broker)。本文将分析Producer相关的代码实现。类kafka.producer.Producer如果你自己实现Kafka客户端来发送消息的话,你就是用到这个类提供的接口来发送消息。(如果你对如何利用Produ转载 2016-10-21 20:32:23 · 952 阅读 · 0 评论 -
Kafka源码分析-序列7 -Consumer -coordinator协议与heartbeat实现原理
单线程的consumer在前面我们讲过,KafkaProducer是线程安全的,同时其内部还有一个Sender,开了一个后台线程,不断从队列中取消息进行发送。 而consumer,是一个纯粹的单线程程序,后面所讲的所有机制,包括coordinator,rebalance, heartbeat等,都是在这个单线程的poll函数里面完成的。也因此,在consumer的代码内部,没有锁的出现转载 2016-11-04 14:02:30 · 1043 阅读 · 0 评论 -
漫游Kafka实战篇之客户端编程实例
Kafka Producer APIs新版的Producer API提供了以下功能:可以将多个消息缓存到本地队列里,然后异步的批量发送到broker,可以通过参数producer.type=async做到。缓存的大小可以通过一些参数指定:queue.time和batch.size。一个后台线程((kafka.producer.async.ProducerSendThread)从转载 2016-11-06 11:51:23 · 1209 阅读 · 0 评论 -
Kafka管理工具介绍
Kafka内部提供了许多管理脚本,这些脚本都放在$KAFKA_HOME/bin目录下,而这些类的实现都是放在源码的kafka/core/src/main/Scala/kafka/tools/路径下。Consumer Offset Checker Consumer Offset Checker主要是运行kafka.tools.ConsumerOffsetChecker类,对应的脚本转载 2016-11-06 15:11:30 · 3232 阅读 · 0 评论