Kafka-common开源组件设计思路（附开源地址）

最新推荐文章于 2024-05-01 21:38:28 发布

原创

最新推荐文章于 2024-05-01 21:38:28 发布 · 542 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#kafka #数据分析 #github

本文介绍 ThinkingAnalytics 系统中用于管理Kafka consumer offset的kafka-common组件，阐述其开源背景、设计要点及注意事项。组件已在多个私有化客户中稳定运行，提供手动管理offset以优化数据安全和一致性。

一、kafka-common组建说明

1.1 编写背景

1.1.1 TA系统简介

随着大数据行业的发展，企业对于数据的利用越来越重视，对海量数据进行分析，按照数据分析的结果进行精细化运营也提上了各个企业的课题。

大数据时代的到来，企业越来越需要这一领域的专家，但大数据行业门槛高，自建平台成本高，难度大，和其他部门配合效率低，很多情况下，效果也并不理想。

基于这一现象，数数科技基于hadoop，presto，kudu，kafka，flume等底层大数据组件，研发了一套企业级的海量数据即席分析系统——ThinkingAnalytics，简称TA系统。

该系统颠覆了以前开发人员根据数据分析人员提的需求进行定制化数据分析开发，然后将结果导出，交付给数据分析人员进行分析的传统大数据分析模式。从根本上解决了各个传统企业和互联网企业的在海量数据分析上的痛点，能让企业以极小的成本，将大数据真正在企业内部落地，为企业的精细化运营做出极大的贡献。

使用TA系统后，数据分析人员只需要简单的设置和图形拖拽，即可得到想要的数据分析结果，极大的减小了数据分析的人力成本，使得大数据分析的大规模应用得到可能。

1.1.2 kafka-common简介

数据安全是企业首要关注的重点之一。

TA系统提供了私有云的部署（私有化）方式，使数据留在企业自己的服务器内，避免了企业数据的泄露。

但私有云的部署又涉及了很多问题，其中一个问题是，如何把技术栈做的足够收敛，从而使得我们在持续集成，持续部署上尽可能的简单。所以，我们大部分的核心组件都是自研。自己造轮子，可以在技术栈上保证足够的统一和收敛。

所以，我们并没有选择一些开源的大数据流式处理引擎(例如spark，flink…)，而最终自研了ta-data-etl流式处理引擎。

在ta-data-etl中，针对kafka consumer offset的管理，我们研发团队开发了kafka-common组

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。