前言
随着 Flink 在流式计算的应用场景逐渐成熟和流行。如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 的开发和维护成本,并且能够丰富 Flink 的生态。因为 SQL 是批计算比较常用的工具,所以 Flink 针对于批计算主要以 SQL 为主要接口。本次分享主要针对 Flink 对批处理的设计与 Hive 的集成。
主要分为下面三点展开:
-
设计架构
-
项目进展
-
性能测试
首先和大家分享一下 Flink 批处理的设计架构。
1. 背景
Flink 提升批处理的主要原因,是为了减少客户的维护成本和更新成本,还有更好的完善 Flink 生态环境。又因为 SQL 是批计算场景中一个非常重要的工具,所以我们希望以 SQL 做为在批计算场景的主要接口。所以我们着重优化了 FlinkSQL 的功能。目前 FlinkSQL 主要有下面几点不足需要优化。