
kafka
u4110122855
1.熟悉 Spark、 ElasticSearch、 Kafka、 Solr、 Impala等分布式开源组件
2.熟悉 Spark、 MapReduce 计算框架和工作原理,了解Tez框架
3.熟悉 Scala、 Java、C/C++等编程语言,了解html语言
4.熟悉 Linux 操作系统,能够使用Shell脚本语言编程
5.灵活使用 MySql, Oracle, MS SQL Server 等关系数据库
6.熟悉 Cloudera Hadoop 和纯粹开源 Hadoop 版本的组件
7.有较为丰富的集群部署、开发和维护管理经验
展开
-
kafka的partiton限制拉取数据条数问题定位
现象:kafka版本是0.10.0.1,每次启动任务每次拉取各个分区partition数据量都不超过1000条,已经设置了max.poll.records:The maximum number of records returned in a single call to poll()。但是不管如何设置大这个参数,都不能超过该参数。后面启动了多个任务后,多个任务都每秒都总和感觉也没有超过3000都样子,就是没有partitions 每秒没有拉得的数据没有超过1000。问题分析:虽然,增加part原创 2020-08-27 21:35:18 · 3452 阅读 · 0 评论 -
Kafka分区分配策略分析——重点:StickyAssignor
“为什么Kafka在RangeAssigor、RoundRobinAssignor的基础上,又新增了PartitionAssignor,它解决了什么问题?”背景用过Kafka的同学应该都知道Kafka的分区和消费组的概念。在Kafka中,每个Topic会包含多个分区,默认情况下一个分区只能被一个消费组下面的一个消费者消费,这里就产生了分区分配的问题。Kafka中提供了多重分区分配算...转载 2019-12-19 16:29:04 · 3394 阅读 · 1 评论 -
Kafka组件研究<六>---- kafka FAQ
6.1 问题一:ZookeeperConsumerConnector问题问题描述:kafka.common.ConsumerRebalanceFailedException: …..can't rebalance after 4 retries现象展示: 问题原因:consumer rebalancing fails (you will see ConsumerRebalanc原创 2016-12-19 20:52:11 · 513 阅读 · 0 评论 -
Kafka组件研究<五>---- Kafka监控-KafkaOffsetMonitor
kakfka原理及架构原创 2016-12-19 20:43:14 · 334 阅读 · 0 评论 -
Kafka组件研究<四>----Kafka API使用
5.1 创建主题Demo5.2 生产者Demo 5.3 消费者Demo 5.4 常见问题问题一:序列化化问题问题描述:key和value序列化无法构造StringEncoder对象。现象展示: 问题原因:参考网上资料需要加以验证才行。问题解决:使用StringSerializer来替换StringEncoder实现原创 2016-12-19 20:40:41 · 229 阅读 · 0 评论 -
Kafka组件研究<三>----Kafka操作
Kafka操作原创 2017-07-05 21:35:26 · 576 阅读 · 0 评论 -
Spark Streaming应用与实战全攻略
Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务本篇为第一部分,包括背景与架构改造、通过代码实现具体细节并运行项目、对Streaming监控的介绍以及解决实际问题、对项目做压测与相关的优化转载 2017-07-13 19:12:57 · 1715 阅读 · 0 评论 -
Kafka组件研究<二>----Kafka部署
2.1 配置安装首先解压安装包kafka_2.11-0.10.0.0.tgz然后建立软连接 修改配置文件config/server.properties 2.2 设置环境变量在/etc/profile最后面添加如下环境变量:2.3 启动 2.4 查看&测试可以看到Kafka的进程PID号为20562原创 2016-08-01 21:10:10 · 790 阅读 · 0 评论 -
Kafka组件研究<一>----组件介绍
1 Kafka概述1.1 介绍 Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。1.2 名词解释Topics:一类消息,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。Producers:We'll call processes that publish原创 2016-08-01 20:59:30 · 1069 阅读 · 0 评论