
Kafka
哪有天生的学霸,一切都是厚积薄发
天道酬勤,商道酬信,学道酬苦,业道酬精 ,人道酬诚。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kafka(一)
HDFS/Hbase/Project需要从LogServer中获取数据存储下来,需要使用到Flume,相当于flume从logServer中采集日志信息,存储到当前介子中,一般来说HDF/HBASE存储的都是海量,作为离线分析的依据 假设每一段时间就像LogServer进行一次日志采集,存储到HDFS/HBASE可以完成这个任务,提供一个定时任务即可。 若项目增加 ,需要Flume去请求Log...原创 2018-12-13 00:11:27 · 726 阅读 · 0 评论 -
kafka存储机制
(一)关键术语 1.Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker能够组成一个Kafka集群。 2.Topic:一类消息,比如page view日志、click日志等都能够以topic的形式存在。Kafka集群能够同一时候负责多个topic的分发。 3.Partition:topic物理上的分组。一个topic能够分为多个partition,每一个par...转载 2018-12-13 19:31:28 · 1162 阅读 · 0 评论 -
Exception in thread "main" org.apache.spark.SparkException: java.nio.channel
Exception in thread “main” org.apache.spark.SparkException: java.nio.channels.ClosedChannelException org.apache.spark.SparkException: Couldn’t find leader offsets for Set([myTopic,0])原创 2019-01-03 21:01:42 · 3280 阅读 · 1 评论 -
org.apache.flume.conf.ConfigurationException: brokerList must contain at least one Kafka broker
解决办法: 圈出来的日志信息明显提示我们因为配置文件的错误导致我们sink挂了,所以产生下面的错误,org.apache.flume.conf.ConfigurationException: brokerList must contain at least one Kafka broker 开始我没有关注错误信息上面的日志信息,一直在查找下面这个错误的原因,后面发现原来是配置文件的原因。 错误...转载 2019-01-03 10:29:55 · 415 阅读 · 0 评论 -
sparkstreaming消费kafka数据,如果发生消息积压,如何处理?
1.首先是为什么会发生消息积压? 原因 在默认情况下,SparkStreaming 通过receivers(或者Direct方式)以生产者生产数据的速率接收数据。当Batch procecing time > batch interval 的时候,也就是每个批次数据处理的时间要比SparkStreaming批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开会出现...转载 2019-01-08 15:24:55 · 14179 阅读 · 1 评论 -
kafka保证数据一致性和可靠性?
1.数据一致性保证 一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到。 HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset) 对于Leader新收到的msg,client不能立刻消费,Leader会等待该消息被所有IS...原创 2019-01-08 15:54:19 · 456 阅读 · 0 评论 -
kafka怎么保证数据消费一次且仅消费一次?
1.众所周知,kafka0.11.0.0版本正式支持精确一次处理语义(exactly onece semantic–EOS),Kafka的EOS主要体现在3个方面: 1)幂等producer 保证单个分区的只会发送一次,不会出现重复消息 2)事务(transation):保证原子性的写入多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚 3)流式EOS:流处理本质上可看成是“”读取-处理-...转载 2019-01-08 16:33:55 · 17079 阅读 · 2 评论 -
Kafka的特性和使用场景
1.网站活动追踪 kafka原本的使用场景:用户的活动追踪,网站的活动(网页游览,搜索或其他用户的操作信息)发布到不同的话题中心,这些消息可实时处理,实时监测,也可加载到Hadoop或离线处理数据仓库。 每个用户页面视图都会产生非常高的量。 2.指标 kafka也常常用于监测数据。分布式应用程序生成的统计数据集中聚合。 3.日志聚合 使用kafka代替一个日志聚合的解决方案。 4.流处理 kafk...原创 2019-01-08 16:45:28 · 3292 阅读 · 0 评论 -
kafka在高并发的情况下,如何避免消息丢失和消息重复?
1.为什么会发生消息丢失和消息重复? 消息发送 Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过producer.type属性进行配置。Kafka通过配置request.required.acks属性来确认消息的生产: 0—表示不进行消息接收是否成功的确认; 1—表示当Leader接收成功时确认; -1—表示Leader和Follower都接收成功时确认;...原创 2019-01-08 16:56:18 · 11020 阅读 · 0 评论