深信服迈向低延迟大数据基础设施
1. 大数据基础设施概述
在大数据处理领域,构建一个高效、低延迟的基础设施至关重要。我们对消息队列、流处理、OLAP 和数据湖等方面的当前开源系统进行了分析和比较,明确了各系统的优缺点,并根据数据处理需求确定了如何选择合适的组件。在此基础上,我们提出了一个低延迟大数据基础设施,将消息队列、流处理、OLAP 和数据湖集成到一个统一的大数据平台中,该平台能够支持各种用例,同时在处理大量流数据时实现低延迟和高吞吐量。
1.1 高层抽象结构
大数据基础设施主要由以下几个部分组成(从下到上):
- 存储(Storage) :
- 流存储(Stream Storage) :临时存储流数据,用于流处理。有生产者和消费者两个角色,生产者向流存储发布消息,消费者订阅流后可以逐个事件地消费消息。这些系统支持大量的读写操作,且延迟极低。
- 湖存储(Lake Storage) :提供对象或二进制大对象存储,用于保存历史数据以进行批处理。它在构建数据仓库中起着重要作用,也用作 OLAP 系统的存储层。这些系统通常通过逐个写入块来实现更好的写入性能。
- 计算(Compute) :提供对底层流存储和湖存储层进行任意计算的能力,包括流处理和批处理两种数据处理模式。
- 流处理(Stream Processing) :以实时方式立即处理来自流存储的连续无限流数据,延迟是关键关注点,通常只需几秒钟或几毫秒即可处理数据。
-
超级会员免费看
订阅专栏 解锁全文
1299

被折叠的 条评论
为什么被折叠?



