大数据流数据模型与架构解析
1 引言
在当今时代,大数据流产生了重大影响,因为众多应用程序正以极快的速度持续生成大量数据。由于大数据具有动态特性,现有的数据挖掘方法和工具难以直接应用于大数据流。数据流式处理,也称为流处理或事件流式处理,成为解决这一问题的有效方案。在了解数据流式架构之前,我们需要先明确数据流式处理的含义。
1.1 数据流式处理
数据流式处理并非一种特殊的事物,它只是一个通用术语,用于描述以极快速度、大量且连续生成的数据。在现实生活中,数据流式处理的例子随处可见,如各行业的用例、实时零售库存管理、社交媒体动态、多人游戏、拼车应用等。通过观察这些例子可以发现,流数据源能够实时对事件进行分类。数据流通常以半结构化或非结构化的形式存在,常见的是 JSON 或可扩展标记语言 (XML) 中的键值对。
1.2 批处理与流处理对比
| 处理方式 | 批处理 | 流处理 |
|---|---|---|
| 处理方式 | 在规定时间内批量处理大量数据,一次性处理整个数据集 | 即时处理连续产生的数据流,实时进行分析 |
| 适用数据 | 适用于最终收集并批量处理相似数据的场景 | 适用于未知大小和无限大小的数据,且数据是连续产生的 |
| 处理速度 | 较慢 < |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



