一、Kafka概述
- Kafka官网:https://kafka.apache.org/
- Kafka 是分布式发布-订阅消息系统。它最初由LinkedIn(领英)公司开发,使用 Scala 语言编写,之后成为 Apache 项目的一部分。Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。
(一)Kafka是什么?
- 最初,Kafka实际上是LinkedIn用于日志处理的分布式消息队列,LinkedIn的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。
(二)Kafka能做什么?
- 现今,Kafka主要用于处理活跃的流式数据,如分析用户的行为,包括用户的PV(Page View - 页面浏览),以便能够设计出更好的广告位,对用户搜索关键词进行统计以便分析出当前的流行趋势,比如经济学上著名的长裙理论:如果长裙的销量高了,说明经济不