Hadoop生态圈（十一）：Storm

最新推荐文章于 2024-06-23 08:00:00 发布

原创

最新推荐文章于 2024-06-23 08:00:00 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

Apache Storm是一个开源的分布式实时计算系统，用于处理无界的数据流。与Hadoop的离线计算不同，Storm专注于实时计算，数据保存在内存中，支持实时收集、计算和展示。本文介绍了Storm的概述、基础知识、集群搭建、常用API以及分组策略和并发度，通过案例展示了其在实时分析、网站性能监控等场景的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4.1.1 Component组件（Spout和Bolt）

4.2.3 需求2：动态增加日志，查看控制台打印信息（tail特性）

5 分组策略和并发度

5.1 分组策略（Stream Grouping）

5.2 并发度

5.3 实时单词统计案例

1 Storm概述

1.1 离线计算是什么？

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据

1.2 流式计算是什么？

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

离线计算与实时计算最大的区别：实时收集、实时计算、实时展示

实时流处理架构

1.3 Storm是什么？

Storm是一个分布式计算框架，主要使用Clojure与Java语言编写，最初是由Nathan Marz带领Backtype公司团队创建，在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行，版本号0.5.0。

2013年9月，Apache基金会开始接管并孵化Storm项目。Apache Storm是在Eclipse Public License下进行开发的，它提供给大多数企业使用。经过1年多时间，2014年9月，Storm项目成为Apache的顶级项目。

Storm是一个免费开源的分布式实时计算系统。Storm能轻松可靠地处理无界的数据流，就像Hadoop对数据进行批处理；

1.4 Storm与Hadoop的区别

1）Storm用于实时计算，Hadoop用于离线计算。

2）Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批处理（批处理）。

3）Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

1.5 Storm应用场景及行业案例

Storm用来实时计算源源不断产生的数据，如同流水线生产。

1.5.1 运用场景

Storm能用到很多场景中，包括：实时分析、在线机器学习、连续计算等。

1）推荐系统：实时推荐，根据下单或加入购物车推荐相关商品

2）金融系统：实时分析股票信息数据

3）预警系统：根据实时采集数据，判断是否到了预警阈值。

4）网站统计：实时销量、流量统计，如淘宝双11效果图

1.5.2 典型案列

1）京东-实时分析系统：实时分析用户的属性，并反馈给搜索引擎

最初，用户属性分析是通过每天在云上定时运行的MR job来完成的。为了满足实时性的要求，希望能够实时分析用户的行为日志，将最新的用户属性反馈给搜索引擎，能够为用户展现最贴近其当前需求的结果。

2）携程-网站性能监控：实时分析系统监控携程网的网站性能

利用HTML5提供的performance标准获得可用的指标，并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表，通过历史数据对比等判断规则，触发预警事件。

3）淘宝双十一：实时统计销售总额

2 Storm基础知识

2.1 Storm编程模型

编程模型中组件介绍：

1. 元组（Tuple）

元组（Tuple），是消息传递的基本单元，是一个命名的值列表，元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。元组本来应该是一个key-value的Map，但是由于各个组件间传递的元组的字段名称已经事先定义好，所以只要按序把元组填入各个value即可，所以元组是一个value的List。

2. 流（Stream）

流是Storm的核心抽象，是一个无界的元组系列。源源不断传递的元组就组成了流，在分布式环境中并行地进行创建和处理。

3. 水龙头（Spout）

Spout是拓扑的流的来源，是一个拓扑中产生源数据流的组件。通常情况下，Spout会从外部数据源中读取数据，然后转换为拓扑内部的源数据。

Spout可以是可靠的，也可以是不可靠的。如果Storm处理元组失败，可靠的Spout能够重新发射，而不可靠的Spout就尽快忘记发出的元组。

Spout可以发出超过一个流。

Spout的主要方法是nextTuple()。NextTuple()会发出一个新的Tuple到拓扑，如果没有新的元组发出，则简单返回。

Spout的其他方法是ack()和fail()。当Storm检测到一个元组从Spout发出时，ack()和fail()会被调用，要么成功完成通过拓扑，要么未能完成。Ack()和fail()仅被可靠的Spout调用。

IRichSpout是Spout必须实现的接口。

4. 转接头（Bolt）

在拓扑中所有处理都在Bolt中完成，Bolt是流的处理节点，从一个拓扑接收数据，然后执行进行处理的组件。Bolt可以完成过滤、业务处理、连接运算、连接与访问数据库等任何操作。

Bolt是一个被动的角色，接口中有一个execute()方法，在接收到消息后会调用此方法，用户可以在其中执行自己希望的操作。