Yelp自建流处理器PaaStorm，弃用Storm和Heron：实时计算和数据转换的新选择

最新推荐文章于 2025-12-04 18:10:19 发布

PnjRust

最新推荐文章于 2025-12-04 18:10:19 发布

阅读量139

点赞数

CC 4.0 BY-SA版权

文章标签： storm 大数据 PaaS

本文链接：https://blog.youkuaiyun.com/PnjRust/article/details/133433059

PaaS 专栏收录该内容

116 篇文章 ¥59.90 ¥99.00

订阅专栏

Yelp因部署管理复杂和灵活性不足放弃Apache Storm和Heron，转而构建自己的流处理器PaaStorm。PaaStorm提供高级抽象，简化部署，增强灵活性和可扩展性，适合大规模实时数据处理。示例代码展示了PaaStorm如何实现简单数据转换任务。

随着大数据时代的到来，实时计算和数据转换成为了许多企业和组织中不可或缺的需求。在这个领域，Yelp（一家知名的商户评论和社交平台）曾经使用Apache Storm和Heron来处理其大规模的数据流。然而，最近，Yelp决定转向自建流处理器PaaStorm，并放弃了Storm和Heron。本文将探讨Yelp为何做出这个决策，并提供PaaStorm的相关源代码示例。

Apache Storm和Heron是两个非常受欢迎的开源流处理框架。它们提供了可靠且可扩展的实时数据处理能力，让用户能够以低延迟处理大规模数据流。然而，Yelp在使用这两个框架的过程中遇到了一些挑战和限制。

首先，Yelp发现在部署和管理方面存在一些困难。使用Storm和Heron需要用户自己搭建和管理集群，配置复杂的拓扑结构，并处理一些与集群相关的细节。这对于一家规模庞大的公司来说，需要投入大量的人力和资源。为了简化部署和管理流处理任务，Yelp决定自建流处理器PaaStorm，提供更高级的抽象和易用性。

其次，Yelp对于流处理任务的灵活性和可扩展性提出了更高的要求。Storm和Heron是基于批处理模型的，将数据流划分为小的批次进行处理。然而，在某些场景下，需要对数据流进行更细粒度的处理，以便更快地获取实时结果。此外，随着Yelp数据规模的增长，需要一个能够轻松扩展和处理大规模数据的解决方案。为了满足这些需求，Yelp决定自建PaaStorm，以提供更灵活和可扩展的流处理能力。

PaaStorm是一个基于云原生架构的流处理器，专为实时计算和数据转换而设计。它提供了简单易用的接口和高度可扩展的架构。下面是一个示例代码，演示如何使用PaaStorm来实现一个简单的数据转换任务：

了解本专栏