1.数据采集和收集 2.大量数据的存储 3.ETL数据清洗 4.分析计算 5.展现给用户 1.使用Kafka生产数据 -->Flume实时数据采集 -->HDFS分布式文件系统上存储 Kafka kafka是一个高吞吐、分布式发布订阅消息系统