大数据实时处理利器:Apache Storm 入门指南
1 认识 Apache Storm
Apache Storm 是一个分布式实时计算框架,它让处理无界数据流变得轻松。Storm 可以与现有的排队和持久化技术集成,以多种方式消费和处理/转换数据流。
为了更好地理解 Storm 是什么以及何时使用它,我们需要了解它在大数据领域中的位置,以及它可以与哪些技术结合使用,又能替代哪些技术。
2 什么是大数据
2.1 大数据的四个 V
大数据可以通过四个不同的属性来理解:体量(Volume)、速度(Velocity)、多样性(Variety)和准确性(Veracity)。
- 体量(Volume) :这是大数据最明显的属性,也是大多数人听到这个词时首先想到的。每天,数据从众多来源不断产生,如社交媒体上人们产生的数据、软件本身生成的数据(网站跟踪、应用程序日志等)以及用户生成的数据(如维基百科),这些只是数据来源的冰山一角。像谷歌、脸书和推特等公司,处理的数据量巨大,但也有很多公司数据量没那么大,却也在使用 Storm,这就涉及到第二个 V——速度。
- 速度(Velocity) :速度涉及数据流入系统的节奏,包括数据量和数据的持续流动。数据量可能相对较小,比如网站上访客点击的一系列链接,但流入系统的速率可能相当高。速度很重要,因为如果不能快速处理数据以提供价值,数据量大小就无关紧要了。关键在于能否在数据过时之前从中提取有意义的信息。
- 多样性(Variety) :在提取数据的意义时,通常需要将来
超级会员免费看
订阅专栏 解锁全文
410

被折叠的 条评论
为什么被折叠?



