Big Data Systems - Batch Processing

最新推荐文章于 2025-04-14 14:07:15 发布

hpxiangsky

最新推荐文章于 2025-04-14 14:07:15 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： Hadoop Big Data Spark Batch Processing Batch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hpxiangsky/article/details/79398223

本文介绍了批处理系统的特点，如高吞吐量和高延迟，以及其在产品销量预测系统中的具体应用。系统采用Hadoop和Spark进行数据处理，利用HDFS和HBase存储，通过Oozie管理调度，使用Spark Mlib进行机器学习预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Batch Processing System，有时又称为Offline Systems，中文翻译为批处理系统／离线系统。自Hadoop的诞生已来, 这种系统目前已在业界广泛使用。
本文结合作者多年的工作经验，结合一个体案例，对批处理系统的基本特点、常见架构、常用技术等进行了介绍。
本文所有内容均为原创，转载请注明出处。

基本介绍

什么是批处理系统？

同时消费所有的输入数据，在一次计算过程中进行处理，产生输出数据。如果在处理部分数据的过程中出现了不可恢复的错误，整个批处理失败。

特点

高吞吐量－批处理系统能够同时处理大量的数据，并通过增加更多的计算节点横向扩展，因此具有很高的吞吐量。
高延迟－单个请求的延迟取决于整个批处理的计算时间，因此批处理系统的延迟很高。常见批处理系统中，数据的处理过程通常需要一定的时间，从几分钟到几小时甚至几天不等，根据业务的需求决定。因为这种系统的处理延迟很高，线上系统根本无法忍受，这种计算又被称为离线计算。

运行模式

由于离线计算通常耗时较长，离线系统的运行模式通常是

系统按某个时刻表，定期地进行计算（例如一天一次），计算完成后结果推送给用户
用户给系统发计算请求，系统进行计算，计算结果异步地推送给用户

具体案例－产品销量预测系统

某B2C电商公司，业务涉及百万种商品，因业务需要，搭建产品销量预测系统，以更好地服务于商品的买入与清理，优化库存结构。

用户

采购部门－采购合适树目的商品，用于未来的销售
清仓部门－清楚商品库存，防止积压
...

系统架构

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。