Storm、Spark Streaming的区别主要在一下几点
1、Storm是一个纯实时的流式处理框架,即来一条数据处理一条数据,这样势必集群内有频繁的网络通讯,吞吐量低
2、Spark Streaming是微批处理框架,吞吐量高
3、Storm的事务处理机制要比Spark Streaming的好,Spark Streaming中存在丢失数据或者重复计算的问题,Storm中接受或拉取的每条数据可以准确的只处理一次
4、Storm适合做简单的汇总型计算,Spark Streaming可以做复杂的计算,因为Spark Streaming是基于DStream来开发的,DStream可以抽出RDD(即Spark的核心),支持更多的复杂计算
5、Storm支持动态资源的调整,而Spark Streaming是粗粒度的资源调度
关于具体业务上Storm、Spark Streaming的选择问题:
通过上面的区别,可以得出,如金融类的肯定选择Storm,对精度要求高,如实时预测类的肯定是Spark Streaming,还可以根据公司的实际资源选择,如果现有Spark集群,肯定是Spark Streaming更合适。