大数据流处理:技术与应用解析
1. 数据流概述
数据流是指以稳定的高速率传输数据,且具有低延迟和良好可控性的过程。在数据流处理中,数据量通常非常大,需要实时做出决策。高清电视(HDTV)就是数据流的一个常见应用。云数据流服务支持众多组织的内容分发,例如亚马逊网络服务(AWS)托管了网飞(Netflix),谷歌云托管了YouTube。此外,云还支持各种其他数据流应用,AWS就支持包括Apache Kafka、Apache Flume、Apache Spark Streaming和Apache Storm在内的多个流数据平台。
1.1 数据流与批处理的区别
| 比较项 | 数据流处理 | 批处理 |
|---|---|---|
| 处理单位 | 单个记录或微批次 | 大数据批次 |
| 处理数据范围 | 最新数据或滚动时间窗口内的数据 | 整个数据集或大部分数据集 |
| 延迟要求 | 毫秒级 | 分钟或小时级 |
| 处理功能 | 简单响应函数、聚合和滚动指标 | 复杂分析 |
| 全局状态推理 | 困难,不同节 |
超级会员免费看
订阅专栏 解锁全文
172万+

被折叠的 条评论
为什么被折叠?



