9、大数据流数据模型与架构解析

大数据流数据模型与架构解析

1 引言

在当今时代,大数据流产生了重大影响,因为众多应用程序正以极快的速度持续生成大量数据。由于大数据具有动态特性,现有的数据挖掘方法和工具难以直接应用于大数据流。数据流式处理,也称为流处理或事件流式处理,成为解决这一问题的有效方案。在了解数据流式架构之前,我们需要先明确数据流式处理的含义。

1.1 数据流式处理

数据流式处理并非一种特殊的事物,它只是一个通用术语,用于描述以极快速度、大量且连续生成的数据。在现实生活中,数据流式处理的例子随处可见,如各行业的用例、实时零售库存管理、社交媒体动态、多人游戏、拼车应用等。通过观察这些例子可以发现,流数据源能够实时对事件进行分类。数据流通常以半结构化或非结构化的形式存在,常见的是 JSON 或可扩展标记语言 (XML) 中的键值对。

1.2 批处理与流处理对比

处理方式 批处理 流处理
处理方式 在规定时间内批量处理大量数据,一次性处理整个数据集 即时处理连续产生的数据流,实时进行分析
适用数据 适用于最终收集并批量处理相似数据的场景 适用于未知大小和无限大小的数据,且数据是连续产生的
处理速度 较慢 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值