6、深信服迈向低延迟大数据基础设施

深信服迈向低延迟大数据基础设施

1. 大数据基础设施概述

在大数据处理领域,构建一个高效、低延迟的基础设施至关重要。我们对消息队列、流处理、OLAP 和数据湖等方面的当前开源系统进行了分析和比较,明确了各系统的优缺点,并根据数据处理需求确定了如何选择合适的组件。在此基础上,我们提出了一个低延迟大数据基础设施,将消息队列、流处理、OLAP 和数据湖集成到一个统一的大数据平台中,该平台能够支持各种用例,同时在处理大量流数据时实现低延迟和高吞吐量。

1.1 高层抽象结构

大数据基础设施主要由以下几个部分组成(从下到上):
- 存储(Storage)
- 流存储(Stream Storage) :临时存储流数据,用于流处理。有生产者和消费者两个角色,生产者向流存储发布消息,消费者订阅流后可以逐个事件地消费消息。这些系统支持大量的读写操作,且延迟极低。
- 湖存储(Lake Storage) :提供对象或二进制大对象存储,用于保存历史数据以进行批处理。它在构建数据仓库中起着重要作用,也用作 OLAP 系统的存储层。这些系统通常通过逐个写入块来实现更好的写入性能。
- 计算(Compute) :提供对底层流存储和湖存储层进行任意计算的能力,包括流处理和批处理两种数据处理模式。
- 流处理(Stream Processing) :以实时方式立即处理来自流存储的连续无限流数据,延迟是关键关注点,通常只需几秒钟或几毫秒即可处理数据。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值