简单来说,Kafka 本身并不关心数据的格式和类型,它本质上是一个分布式的、用于处理实时数据流的“字节序列”存储和传递系统。你可以把它想象成一个极其高效且可靠的“管道”,这个管道里流动的是什么内容(文本、JSON、二进制数据等),完全由生产者和消费者来约定。
但是,在实际应用中,根据数据的结构和用途,我们可以将流入 Kafka 的数据分为以下几大类:
1. 日志类数据 (Log Data)
这是 Kafka 最初被设计来处理的数据类型,也是最经典的应用场景。
- 格式:通常是半结构化的纯文本行。
- 内容:
- 应用日志:应用程序通过 Log4j、SLF4J 等日志框架输出的 INFO, WARN, ERROR 日志。
- 系统日志:服务器、网络设备等生成的系统日志(Syslog)。
- 审计日志:记录用户操作行为,用于安全审计。
- 特点:数据量巨大,顺序写入,读取通常是顺序扫描或按时间范围查询。
2. 事件类数据 (Event Data / Metrics)
这是现代流处理中最为常见的数据类型,通常用于实时监控、用户行为分析、推荐系统等。
- 格式:高度结构化的数据,最常用的是 JSON,其次是 Avro、Protobuf。
- 内容:
- 用户行为事件:如

最低0.47元/天 解锁文章
1982

被折叠的 条评论
为什么被折叠?



