一、大数据实时计算框架
1、什么是实时计算?流式计算?
举例:自来水厂处理自来水(特点:持续性、流式计算)
)
2、对比:离线计算和流式计算
(*)离线计算:MapReduce和Spark Core, 数据的批量处理(Sqoop-->HDFS-->MR(SparkCore)--->HDFS)
(*)流式计算:Storm和Spark Streaming, 数据的实时性 (Flume-->Kafka-->Storm(SparkStreaming)-->Redis )
3、常见的实时计算系统
(*)Apache Storm
(*)Spark Streaming
(*)阿里巴巴JStorm:Alibaba JStorm is an enterprise fast and stable streaming process engine.
(*)Apache Flink:第三代大数据处理引擎,既可以进行离线计算,也可以进行流式计算
二、Apache Storm体系结构
1、Storm也是主从结构,存在单点故障问题 ----> 实现HA(借助ZooKeeper)
三、安装和配置Apache Storm
前