作者:禅与计算机程序设计艺术
1.简介
随着互联网、移动互联网、物联网等新型应用的兴起,数据的快速生成、传播、处理和分析变得越来越重要。同时,由于各种原因,传统的数据仓库已经无法支撑业务的需求了,需要采用分布式计算框架对海量数据进行高效的处理和分析。因此,大数据时代即将到来。而Apache Spark和Apache Flink都是目前流行的两个开源分布式计算框架。
本文将详细阐述两款分布式计算框架中最核心的功能特性——数据处理(Data Processing)和任务调度(Task Scheduling),并对如何选择适合不同场景的数据处理框架进行简要的阐述。然后讨论一些关于两款框架的主要区别、使用建议及未来的发展方向。
2.基本概念术语说明
首先,简单介绍一下数据处理和任务调度相关的基本概念和术语。
数据处理(Data Processing)
数据处理又称作离线计算或批处理,就是在不依赖于实时的用户请求的前提下,将大批量数据进行处理,产生结果数据,供其他程序或者系统进行查询或分析。这种方式的好处是能够降低资源消耗,提升处理速度,但也存在缺点:一是不及时性,需要等待大量数据处理完成后才能得