Batch vs. streaming data processing 批处理和流处理

DachuiLi

已于 2024-12-11 23:32:41 修改

阅读量347

点赞数 4

文章标签： batch

于 2024-12-11 23:30:26 首次发布

本文链接：https://blog.youkuaiyun.com/DachuiLi/article/details/144411132

版权

原文链接 Batch vs. streaming data processing | Redpanda

Batch processing 以固定的间隔处理大量的数据。

适用于对时间不敏感的任务，如定期备份，每日结束时生成报告。

Streaming processing 从数据流入就开始不间断的处理数据。

适用于分析来自温度传感器的数据，或分析服务器日志中的可疑活动等。

优缺点

批处理的优点：

再怎么老的机器都能运行。

资源利用率高，可以安排在非高峰期（off-peak）运行，比如半夜。

批处理的缺点：

等待事件长，洞察力缓慢。数据一旦收集，开始运行可能要数分钟，小时，甚至天才能完成。所以适合对时间不敏感的任务。如备份，日终报告（end-of-day reporting）。

流处理的优点：

更快的洞察力，可以实时/几乎实时产出结果。

流处理的缺点：

对于老旧机器运行起来比较吃力。可能需

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DachuiLi

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据架构中的数据处理与分析：从批处理到实时流处理

Programming Talk

11-24

277

批处理是一种传统的数据处理方式，将大量的数据集组织成批次进行处理。批处理通常在数据积累到一定量之后，进行批量的计算和处理。这种方式适用于大规模的数据集，但处理时间相对较长，通常是批量调度的。高吞吐量：能够高效处理大规模的数据集。适用于离线分析：批处理适合在数据量庞大的情况下进行离线分析，如数据清洗、报告生成等。延迟高：批处理需要等待大量数据积累后再进行处理，因此实时性差。不适合动态数据：批处理不适用于需要快速响应的动态数据。批处理和流处理是大数据处理的两大核心技术，各自有不同的应用场景和优缺点。

Spark Streaming vs. Flink：比较与应用

AI天才研究院

12-23

362

大数据技术在过去的几年里发展迅速，成为了企业和组织中不可或缺的一部分。随着数据量的增加，传统的批处理技术已经无法满足实时性和高效性的需求。因此，流处理技术逐渐成为了关注的焦点。Apache Spark和Apache Flink是两个最受欢迎的流处理框架之一。在本篇文章中，我们将深入探讨这两个框架的区别和相似之处，以及它们在实际应用中的优缺点。

参与评论您还未登录，请先登录后发表或查看评论

06 | 如何区分批处理还是流处理？

qq_37756660的博客

07-01

843

今天，将会带领你一起学习在进行大规模数据处理时，无论如何也绕不开的两个处理模式：批处理（Batching Processing）和流处理（Streaming Processing）。在我看来，大规模的视频流系统、大规模物联网（IoT）数据监控系统等各种现代大规模数据系统的出现，已经成为了一种必然的历史潮流。无论你是在从事哪一种开发方向，都不可避免地要与这些海量数据打交道。如何能既满足实际应用场景的需求，又高效地处理好大规模数据，在整个项目开发架构中都是非常重要的一个环节。

批处理VS流处理：实时数据的发展路径

oOBubbleX的博客

04-23

959

本文系统梳理了实时数据处理技术的发展路径，揭示了数据处理从“延时执行”向“实时响应”演进的趋势，以“批处理VS流处理”为主线。 批处理适用于数据新鲜度要求不高或依赖全量数据分析的场景，而微批处理则作为过渡形态，兼顾处理效率与时效性，适配对一致性与资源控制有要求的任务。流处理代表了真正的实时计算能力，以毫秒级响应支持高频事件、复杂状态管理与自动化决策，已成为金融风控、IoT等领域的核心技术基础。

7、Flink 流计算处理和批处理平台

KamRoseLee的博客

11-15

7145

一、Flink 基本概念 Flink 是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。Flink 与 Storm 类似，属于事件驱动型实时流系统。所谓说事件驱动型指的就是一个应用提交之后，除非明确的指定停止，否则，该业务会一直持续的运行，它的执行条件就是触发了某一个事件，比如在淘宝中，我...

Streaming 101 批处理之外的流处理世界

shengjk1的博客

03-02

651

开宗明义！本文根据Google Beam大神Tyler Akidau的系列文章《The world beyond batch: Streaming 101》(批处理之外的流式世界)整理而成，主要讨论流式数据处理。在大数据领域，流式数据处理越发地重要了。原因有以下几点：人们越来越想要得到更及时的数据，而切换到流式处理(streaming)无疑是一个降低延时的好办法 ...

批处理和流处理

weixin_39910711的博客

04-22

3978

目录 1批处理 1.1 Apache Hadoop 1.1.1 批处理模式： 1.1.2 优势和局限： 1.1.3 总结： 2流处理 2.1Apache Storm 2.1.1 流处理模式 2.1.2 优势和局限 2.1.3Storm组成原理 2.1.4Storm主要的编程概念 2.1.5 总结 2.2 Apache Samza 2.2.1 流处理模式 2....

DataStream API:Execution Mode (Batch/Streaming)

weixin_48813624的博客

08-30

850

Execution Mode (Batch/Streaming)

Spark Streaming的流数据处理和分析

何以问_的博客

08-12

1678

一 Spark Streaming 1 Spark Streaming概述 1.1 实时数据处理的动机以前所未有的速度创造数据来自移动，网络，社交，物联网的指数数据增长… 联网设备：2012年为9B，到2020年将达到50B 到2020年，超过1万亿个传感器我们如何实时利用数据的价值？价值会迅速下降→立即获取价值从被动分析到直接运营解锁新的竞争优势需要全新的方法 1.2 跨行业的用例 1.3 什么是Spark Streaming？ Apache Spark核心API的扩展，用

Linux命令-batch命令（在系统不繁忙的时候执行定时任务）

RisunJan的博客

02-10

991

batch命令用于在指定时间，当系统不繁忙时执行任务，用法与at相似。日期时间：指定任务执行的日期时间。

少儿编程scratch项目源代码文件案例素材-直升机飞行.zip

04-30

少儿编程scratch项目源代码文件案例素材-直升机飞行.zip

wanjunshe_Python-Tensorflow_12888_1745868924470.zip

04-30

wanjunshe_Python-Tensorflow_12888_1745868924470

健康监测_Android开发_BLE蓝牙通信_心率数据采集与存储_基于小米手环2的实时心率监测应用_支持后台长时间运行的心率记录工具_可导出SQLite数据库的心率数据分析系统_适.zip

04-30

健康监测_Android开发_BLE蓝牙通信_心率数据采集与存储_基于小米手环2的实时心率监测应用_支持后台长时间运行的心率记录工具_可导出SQLite数据库的心率数据分析系统_适

少儿编程scratch项目源代码文件案例素材-种花模拟器.zip

04-30

少儿编程scratch项目源代码文件案例素材-种花模拟器.zip

嵌入式系统开发_FreeRTOS实时操作系统_STM32F103C8T6微控制器_OLED显示屏_DHT11温湿度传感器_多任务调度_多级菜单设计_万年历算法_电子闹钟功能_参数配.zip

04-30

嵌入式系统开发_FreeRTOS实时操作系统_STM32F103C8T6微控制器_OLED显示屏_DHT11温湿度传感器_多任务调度_多级菜单设计_万年历算法_电子闹钟功能_参数配

基于python实现的粒子群的VRP（车辆配送路径规划）问题建模求解+源码+项目文档+算法解析（毕业设计&课程设计&项目开发）

04-30

基于python实现的粒子群的VRP（车辆配送路径规划）问题建模求解+源码+项目文档+算法解析，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档算法设计的关键在于如何向表现较好的个体学习，标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解和历史最优解的权重，指导粒子速度和位置的更新，这在求解函数极值问题时比较容易实现，而在VRP问题上，速度位置的更新则难以直接采用加权的方式进行，一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解，这里采用顺序交叉算子，对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2)，c1/(w+c1+c2)，c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一（即按概率选择其中一个作为父代，不加权）。算法设计的关键在于如何向表现较好的个体学习，标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解和历史最优解的权重，指导粒子速度和位置的更新，这在求解函数极值问题时比较容易实现，而在VRP问题上，速度位置的更新则难以直接采用加权的方式进行，一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解，这里采用顺序交叉算子，对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2)，c1/(w+c1+c2)，c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一（即按概率选择其中一个作为父代，不加权）。

scratch少儿编程逻辑思维游戏源码-猫猫粉碎.zip

04-30

scratch少儿编程逻辑思维游戏源码-猫猫粉碎.zip

scratch少儿编程逻辑思维游戏源码-蓝胡子.zip