为啥需要storm,主要是mapreduce这个东西只有跑完才能给你传出结果。而且数据是你启动那一刻的数据,如果想着边算边传文件,mapreduce表示臣妾做不到。
流式处理具有时效性高,可以逐条处理数据,处理的快延时也低,类似pipe之类。
在storm中一个topology的概念,英文说法就是网络拓扑。也就是说一个网络里面包含了很多个节点,这节点和节点之间室友一个相互的依赖关系和互助数据传递的一个方向性关系。在topology中包含了spouts和bolts这两个,在这里spouts就是一个数据源,后续的节点就是bolts
一张图很清晰明了的说明了这个topology。在这个图看到一个grouping,其实这个grouping就是类似partition,做为key然后去做一个分组这么一个过程,其实就是一个数据分发。
在看看storm这么厉害能做什么事情:1 传统的六十计算 2 持续计算 3 分布式RPC