1、官网:storm.apache.org,twitter开源。
2、为什么使用Storm?
Stom是一个免费和开源分布式实时计算系统。 Storm可以实时可靠地处理无限流的数据,可使用任何编程语言。
Storm有许多应用,如网上实时分析,机器学习,连续计算,分布式RPC、ETL等等。 Storm运行速度很快:每个节点每秒钟可处理上百万个Tuple。 它是可伸缩的,容错的,保证你的数据将被处理,也很很容易设置和操作。
Stormke可以整合队列和数据库的技术。 Storm topology可以以任意复杂的方式消费Stream数据,但在数据计算的每个阶段需要重新划分Stream。
3、什么是实时计算?
4、批计算VS实时计算。
批计算:批量获取数据,批量传输数据,周期性计算
例子:Sqoop从关系型数据库中抽取数导入到Hive或Hbase并最终保存在HDFS上,使用MapReduce或Hive进行处理。
实时计算:数据源源不断产生,使用流式处理系统计算。
例子:Flume实时数据采集或直接读取数据库日志,然后缓存Kafka中,并使用Storm计算,将最终结果保存在Hbase或Postgre数据库中。
5、MapReduce VS Storm
<