
Kafka
文章平均质量分 73
u013063153
这个作者很懒,什么都没留下…
展开
-
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建(转)
问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息是如何保存的?4.partitions设计的目的的根本原因是什么? 一、入门 1、简介 Kafka is a distributed,partitioned转载 2016-11-04 16:19:04 · 477 阅读 · 0 评论 -
kafka性能调优
主要优化原理和思路kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点:利用了磁盘连续读写性能远远高于随机读写的特点;并发,将一个topic拆分多个partition。要充分发挥kafka的性能,就需要满足这两个条件kafka读写的单位是partition,因此,将一个topic拆分为多个partition可以提高吞吐量。但是,这里有个转载 2017-06-28 09:45:52 · 3519 阅读 · 1 评论 -
kafka优化–JVM参数配置优化
原文:http://mdba.cn/2016/12/16/jvm%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E4%BC%98%E5%8C%96/主要是启动脚本和log4j基本参数的设置和优化,这些参数藏的比较深。1、JVM参数配置优化如果使用的CMS GC算法,建议JVM Heap不要太大,在4GB以内就可以。JVM太大,导致Major G转载 2017-06-28 09:54:09 · 23130 阅读 · 1 评论 -
kafka运行环境优化分析
原文:http://blog.youkuaiyun.com/lizhitao/article/details/417775711.kafka高性能的特点及条件kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点:(1)利用了磁盘连续读写性能远远高于随机读写的特点;(2)并发,将一个topic拆分多个partition。要充分发挥kafka的性能,就转载 2017-06-28 10:29:19 · 441 阅读 · 0 评论 -
后台启动kafka
前台启动kafka:./kafka-server-start.sh ../config/server.properties后台启动kafka:./kafka-server-start.sh ../config/server.properties 1>/dev/null 2>&1 &原创 2017-06-08 10:22:05 · 39426 阅读 · 0 评论 -
kafka 消费者offset记录位置和方式
原文:http://www.mamicode.com/info-detail-1969443.htmlkafka消费者在会保存其消费的进度,也就是offset,存储的位置根据选用的kafka api不同而不同。首先来说说消费者如果是根据javaapi来消费,也就是【kafka.javaapi.consumer.ConsumerConnector】,通过配置参数【zookeepe转载 2017-09-28 11:52:12 · 24851 阅读 · 1 评论 -
kafka offset判断
原文:http://blog.youkuaiyun.com/rongyongfeikai2/article/details/50727661在使用Spark streaming读取kafka数据时,为了避免数据丢失,我们会在zookeeper中保存kafka的topic对应的partition的offset信息(每次执行成功后,才更新zk中的offset信息);从而保证执行失败的下一轮,可以从特定的o转载 2017-09-28 12:43:08 · 676 阅读 · 0 评论 -
Kafka文件存储机制那些事
原文:https://tech.meituan.com/kafka-fs-design-theory.htmlKafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了A转载 2017-09-20 21:36:24 · 456 阅读 · 0 评论 -
kafka概念
broker物理机器,一个broker管多个partitiontopic:一个topic可以由多个partitionpartition:一个partition对应一个broker为什么Storm需要一个消息队列?解决和其他系统耦合的问题。如何获取输入数据?- Storm没有自己的接收器- 而且从数据源拉(pull)可以更好地控制流量如何把输出结果原创 2017-09-20 20:49:14 · 511 阅读 · 0 评论 -
kafka重新分配partition
原文:http://wzktravel.github.io/2015/12/31/kafka-reassign/今天kafka测试环境中机器磁盘告警,占用率超过了80%,原来是某一个topic的partition为1,只往一台机器上写数据,造成kafka集群空间使用不均。下面主要使用kafka-topics.sh和kafka-reassign-partitions.sh来解决问题。转载 2017-06-28 09:44:32 · 18767 阅读 · 1 评论 -
Kafka Shell基本命令(包括topic的增删改查)
原文:http://www.cnblogs.com/xiaodf/p/6093261.html转载请注明出处:http://www.cnblogs.com/xiaodf/创建kafka topic查看所有topic列表查看指定topic信息控制台向topic生产数据控制台消费topic的数据查看topic某分区偏移量最大(小)值增加topic分区数删除topic,慎用,只会删除转载 2017-06-27 14:27:20 · 4399 阅读 · 0 评论 -
Kafka背景及架构介绍
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建转载 2016-11-04 16:48:49 · 1359 阅读 · 0 评论 -
Kafka的使用背景
在大量使用分布式数据库、分布式计算集群的时候:-想分析一下用户行为,以便能设计出更好的广告位;-想对用户的搜索关键词进行统计,分析出前的流行趋势;-有些数据,存数据库浪费,直接存硬盘操作效率又低;共同特征:数据由上游模块产生,下游模块使用上游模块数据进行计算、处理、统计和分析,此时就可以使用消息系统特别是分布式消息系统。kafka的定义:是一个分布式消息系统,有Li原创 2016-11-13 13:57:59 · 842 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
原文链接:http://shiyanjun.cn/archives/1097.html基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于转载 2016-12-12 15:28:37 · 744 阅读 · 0 评论 -
彻底删除Kafka中的topic
1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录2、Kafka 删除topic的命令是: ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】 如转载 2017-06-27 14:47:13 · 3368 阅读 · 0 评论 -
Kafka之数据存储
本文主要讲述以下两部分内容:kafka数据的存储方式;kafka如何通过offset查找message。1.前言写介绍kafka的几个重要概念(可以参考之前的博文Kafka的简单介绍):Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群;Topic:一类消息,例如page view日志、click日志转载 2017-06-27 15:14:48 · 19448 阅读 · 3 评论 -
Kafka消息生成,消费,存储机制
原文:https://my.oschina.net/manmao/blog/847397摘要: http://kafka.apache.org/documentation/#semantics 设计文档 http://kafka.apache.org/documentation/#design Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者转载 2017-06-27 15:18:09 · 13955 阅读 · 2 评论 -
apache kafka系列之在zookeeper中存储结构
原文:http://blog.youkuaiyun.com/lizhitao/article/details/237446751.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{ "version": "版本编号目前固定为数字1",转载 2017-06-27 15:28:35 · 442 阅读 · 0 评论 -
Kafka概述—消息队列
消息队列的特点:生产者消费者模式先进先出(FIFO)顺序保证可靠性保证:- 自己不丢数据(Kafka默认是7天)- 消费者不丢数据:"至少一次,严格一次"至少一次就是可能会有两次,会重严格一次机制就是会负责一点消息队列常见场景:系统之间解耦合- queue模型- publish-subscribe模型峰值压力缓冲异步通信原创 2017-07-05 22:05:04 · 4268 阅读 · 0 评论 -
【原创】kafka安装与启动
在spark001、spark002、spark003三台机器上。版本:kafka_2.10-0.8.2.1.zip启动命令:nohup bin/kafka-server-start.sh start.sh config/server.properties > kafka.log 2>&1 &在spark001上:vim server.properties```原创 2017-09-20 21:52:37 · 2955 阅读 · 0 评论